Return to Video

计算机是如何翻译人类语言的 - Ioannis Papachimonas

  • 0:06 - 0:11
    为什么影视剧里会有那么多的星际物种
  • 0:11 - 0:14
    恰好都会说一口流利的英语呢?
  • 0:14 - 0:18
    原因很简单,因为没人希望为了看一部星际舰队
  • 0:18 - 0:22
    还得花上好几年时间去编译一本外星字典
  • 0:22 - 0:23
    但为了保证一致性,
  • 0:23 - 0:27
    星际迷航和其它科幻小说的编导们
  • 0:27 - 0:31
    就想出了万能翻译机这个点子
  • 0:31 - 0:35
    一个能够立马能在各种语言间进行翻译的手持设备
  • 0:35 - 0:39
    你们觉得万能翻译机在现实生活中是可行的吗?
  • 0:39 - 0:42
    现在已经有很多程序声称
  • 0:42 - 0:46
    他们能在各种语言间进行翻译
  • 0:46 - 0:49
    不管是一个字,一句话,一本书
  • 0:49 - 0:52
    也不管是现代英语还是古梵语
  • 0:52 - 0:56
    如果翻译仅仅只是在字典上查找字意的话,
  • 0:56 - 1:00
    这些程序完全能比人类做得更好
  • 1:00 - 1:03
    但实际上没那么简单
  • 1:03 - 1:07
    一个基于规则的翻译系统所用的词义数据
  • 1:07 - 1:10
    包括你能在字典上找到的所有单词
  • 1:10 - 1:13
    和所有能够使用的语法形态
  • 1:13 - 1:19
    并且得有一套规则能够区分输入语言的基本语言成分
  • 1:19 - 1:22
    举个看起来比较简单的例子:孩子们在吃松饼。
  • 1:22 - 1:27
    翻译程序会先解析这句话的句法或语法结构
  • 1:27 - 1:30
    通过将“孩子”定为主语
  • 1:30 - 1:32
    剩下的部分作为谓语
  • 1:32 - 1:34
    并且包含动词“吃”
  • 1:34 - 1:37
    和直接宾语“松饼”
  • 1:37 - 1:44
    或者这段话怎么才能够拆分成几个小词组
  • 1:44 - 1:46
    就比如说“松饼”这个词
  • 1:46 - 1:50
    后缀“s” 通常是表示复数
  • 1:50 - 1:53
    最后一步还需要理解其中的语义学
  • 1:53 - 1:56
    需要理解这段话中的每个部分都各自表示什么意思
  • 1:56 - 1:58
    为了恰当地翻译这句话
  • 1:58 - 2:00
    翻译程序会为将翻译的文本
  • 2:00 - 2:05
    参照其语言的各个要素词汇和使用规则
  • 2:05 - 2:07
    但这才是麻烦的地方
  • 2:07 - 2:12
    在一些语言的句法结构中,文字并没有特定的顺序
  • 2:12 - 2:16
    而且在有些语言中这句话看起来就像:松饼在吃小孩儿
  • 2:16 - 2:19
    词态学也是个问题
  • 2:19 - 2:22
    斯洛文尼亚语中区别通过使用双重后缀缺失
  • 2:22 - 2:27
    来区分这句话中孩子的数量,两个、三个或者更多
  • 2:27 - 2:30
    然后俄罗斯人不使用定冠词会让你觉得
  • 2:30 - 2:33
    这些孩子到底是在吃一些特定的松饼呢
  • 2:33 - 2:36
    还是一般含义上的松饼
  • 2:36 - 2:40
    结果是,就算程序翻译出来的语义是正确的
  • 2:40 - 2:43
    它可能还是会忽略一些细节
  • 2:43 - 2:46
    就比如说这些孩子到底是在吃松饼
  • 2:46 - 2:48
    还是在吞松饼?
  • 2:48 - 2:51
    另一个研究方法是:统计翻译法
  • 2:51 - 2:55
    这个方法是取分析那些已经被前人翻译过的
  • 2:55 - 2:59
    书籍、文章和文件的数据库
  • 2:59 - 3:05
    翻译系统可以通过找到那些不是偶然
  • 3:05 - 3:08
    和译文恰好匹配的资源
  • 3:08 - 3:10
    辨识相关的短语和句型
  • 3:10 - 3:12
    并存以备用
  • 3:12 - 3:16
    然而这种方式的翻译质量
  • 3:16 - 3:18
    得根据某些语言或写作风格的
  • 3:18 - 3:21
    初始数据库
  • 3:21 - 3:23
    和语库可用性而定
  • 3:23 - 3:26
    有一些困难,就像一些特例、非常规的事物
  • 3:26 - 3:31
    和人类本能上的细微区别这样的困难
  • 3:31 - 3:35
    导致了一些研究人员觉得我们对于语言的理解
  • 3:35 - 3:39
    是我们大脑生物结构的单一产物
  • 3:39 - 3:43
    但事实上,最著名的科幻小说通用翻译器
  • 3:43 - 3:47
    -“巴别塔” 是从“银河系漫游指南”中逐渐分离出来的
  • 3:47 - 3:50
    这翻译器不完全只是一个机器,而是一个
  • 3:50 - 3:54
    能以心电感应形式
  • 3:54 - 3:57
    从有意识生物那儿翻译他们的脑电波和神经信号的小生物
  • 3:57 - 4:00
    目前为止,用老办法去学一门新的语言
  • 4:00 - 4:05
    仍然比用目前可用的计算机程序的效果更好
  • 4:05 - 4:07
    但这也绝非易事,
  • 4:07 - 4:09
    世界上语言的绝对数量
  • 4:09 - 4:13
    和其使用者间的相互作用
  • 4:13 - 4:18
    会刺激自动翻译系统不断进步
  • 4:18 - 4:21
    也许等到我们遇到星际生命形态的物种时
  • 4:21 - 4:25
    我们就能够通过一个小发明与他们交流
  • 4:25 - 4:29
    又或许我们终究得编译那样一套字典。
Title:
计算机是如何翻译人类语言的 - Ioannis Papachimonas
Speaker:
Ioannis Papachimonas
Description:

现实生活中可能存在万能的翻译机吗?我们已经有过许多程序可以证明,将一个词、一句话甚至一整本书从一种语言翻译成几乎任何一种语言是可能的。然而现实中这却更加复杂。oannis Papachimonas向我们展示了这种翻译机器如何运作,并且解释了为什么它们总是会有一点乱套。

more » « less
Video Language:
English
Team:
closed TED
Project:
TED-Ed
Duration:
04:45

Chinese, Simplified subtitles

Revisions