2006 年,谷歌公司正式发布了谷歌翻译,给人民群众吹来了机器翻译的春风。

但是之后很多年来,机器翻译都用它宛如智障的工作表现,给用户带来了一个接一个“惊喜”。

(牛蛙表示不服。)

(蔬菜表示不服。)

(德国咸猪手喊冤叫屈。)

(被烘焙的手机深感不满。)

(乱入的米线觉得困惑。)

(机器翻译想烧你的裙子。)

(机器翻译想得罪你的女客户。)

(它怼天怼地,谁都不放过。)

到了 2020 年,机器翻译已经不会把警示牌上的“小心地滑”翻译成“slip carefully”了。

在多数时候,机器翻译的水平已经和普通人类不相上下了,甚至能准确地翻译丰富多彩的方言词汇。

(来一段《阿甘正传》台词)

机器翻译是怎么变得这么厉害的呢?

1954年,美国 IBM 公司第一次用计算机完成了俄语-英语之间的翻译。

(1954 年的纽约,IBM 701 计算机自动将 60 个俄语句子翻译成了英语。图片来源:http://vas3k.com/blog/machine_translation/)

那种机器翻译的方法,只是将两种语言的单词一一对应,然后凑成一句。按这种办法,大部分翻译都会呈现出 “Good good study, day day up” 的钢铁直男风。

所以,为了保证效果,当时用来做测试的句子都是经过精心挑选的。这种机器翻译真用起来,比一套双语识字卡强不了多少。

为了让机器翻译能准确选词、合理调整语序,语言学家需要努力寻找两种语言语法结构之间的对应关系。

(图片来源:何中军 2018 年 12 月在全球架构师峰会上的特邀报告)

一部分语言学家则另辟蹊径,打算为世界上所有的语言找到一个万能中介语。这样一来,在任何两种语言之间做翻译时都可以由这种语言作中介。

(万能中介语,图片来源:http://vas3k.com/blog/machine_translation/)

但死磕了十几年,语言学家们献祭了一代人的青春和头发之后,发现人类语言的规则太复杂,太细微,特例太多,根本没什么放之四海而皆准的规则 。而且,正常人类说话的时候,还经常不按套路出牌。

(谷歌翻译:你到底几个意思?)

语言学家怕是搞不定了,换谁上呢?

80 年代日本经济如日中天,想跟全世界做生意的日本人迫切需要克服语言障碍,于是打起了机器翻译的算盘。可是英语日语差异太大,靠语言学家找规律简直是不可能的。

(日本人到现在也还是英语苦手,据官方统计,2017 年日本人托福平均成绩全亚洲倒数第三。)

1984 年,京都大学的长尾真教授提出了一种新想法:别研究语法规则了,直接给机器提供现成的翻译例句,让机器自己依葫芦画瓢改去吧。

(例句里的可乐撤掉,套上咖啡就行。双语例句足够多,翻译啥都没话说。)

这种对语法规则不求甚解的思路开启了一片新天地,基于统计的机器翻译技术诞生了。

它的原理差不多就是:这个句子既然人们一般都这么翻,那我机器也这么翻,遇到新的词,套上去就行,管他到底为什么。

这种翻译方法比从前有进步,但调教出来的机器智力还是有限。它永远都不知道自己哪里错了;你给它纠正,它也屡教不改。

90 年代,互联网大规模普及,可采集的双语语料暴增,给机器翻译提供了海量素材。

2003 年,爱丁堡大学的菲利普·科恩教授提出了短语翻译模型。

2006 年谷歌翻译首次登场,它的核心算法就是基于短语的机器翻译,翻译效果显著提升。

2015 年前后,人工智能进入了神经网络时代,在图像处理、语音识别等领域,深度学习技术高歌猛进,机器依葫芦画瓢的水平越来越高。

(人工智能 Topaz Impression 模仿梵高“画”向日葵)

(人工智能 Topaz Impression 模仿特纳“画”水景)

给步履蹒跚的机器翻译带来革命的,是神经网络。

2014 年,谷歌开始憋这个大招。它的原理就是建立各种分门别类的语料库,让机器翻译在翻同一个句子时尽量说同一个语境的话。

比如说,如果机器只看到“小心地滑”,就判断这多半是要用在警示牌上,得翻译成“Caution! Wet floor!”。但如果这句话是“第一次滑雪要小心地滑”,机器就懂了,哦,这得翻译成“ski carefully”。

2016 年 9 月,谷歌发布了研究结果:在神经网路的助力之下,机器翻译实现颠覆性突破,以句子为单位的机器翻译,误差平均降低了 60%。

(来自谷歌翻译的特大喜讯,来源:https://arxiv.org/abs/1609.08144)

这为现代机器翻译的突飞猛进奠定了基础。

对一般需求来说,目前的机器翻译水平已经又快又准,秒杀辛辛苦苦过四六级的大学生了。

(图片来源:何中军 2018 年 12 月在全球架构师峰会上的特邀报告)

(人工智能阿尔法狗打哭了柯洁,图片来自网络)

举个例子,今天的机器翻译会怎么翻译“奥利给”呢?

它是一个流行的词语,但是组成这个词的每一个字,都和词语的意义无关。

更聪明的机器翻译会通过知识图谱等人工智能技术,去识别这个词的意思。当它发现一个陌生的词“奥利给”,就在网络文本中寻找与它有强关联的语句,看看当人们使用“奥利给”时一般还会说什么。

此外,像搜狗翻译这样和搜索引擎紧密联系的机器翻译产品,还能从输入大数据中获得更多相关的实时信息。

然后,人工智能会分析这些语句和“奥利给”之间的关系、词语的情感倾向,最终就把“奥利给”翻译成了“Cheer up”。

基于知识图谱的机器同声翻译,在不断接近人工同传的水平。

当它听到“逻辑思维”,会根据语境、视觉信息来判断,这是指一个姓罗的胖子做的知识付费产品,还是指一种思维的能力。

相信很多外语翻译专业的同学们,正在感受到 18 世纪纺织工人面对蒸汽机时的焦虑。

不过,机器翻译依然面临着很多的困难。

这位,是认知科学家侯世达。他认为,今天的机器翻译不管多“深度”,都是空洞的。机器对时空、对存在、对任何事物都没有感知,因此它对语境和词语也没有真正的理解。

(反方代表人物侯世达,人工智能领域不可忽视的人物,奇书《哥德尔、埃舍尔、巴赫:集异璧之大成》作者,图片来源:newsinfo.iu.edu)

即使有再大的数据库,机器也只能匹配不同语言的词语,却也无法真正 get 到一个词语所代表的图像、情感和意义。

机器只有拥有了类似人类的思想、情绪和体验,才能真正学会翻译这门艺术。

与此同时,像中文这样延续几千年的语言中,还包括诗词歌赋、谚语成语文言文。而在我们的日常说话中,还有谐音、笑话、双关语。

现在还有层出不穷的网络用语,比如饭圈、二次元圈各自专属的语言表达。

因此,机器翻译,还面临的巨大挑战。

《圣经》故事中,人类曾经同说一种语言,一起建造一座通往天堂的巴别塔。但上帝为了阻止人类,让人们说不同的语言,彼此不能沟通,于是通天塔计划被抛弃,人类散落四方。

今天,这个星球上生活着 70 多亿人,说着 6000 多种不同的语言。我们终其一生都无法与其中的绝大部分人见面,但我们依然希望与不同肤色、民族和信仰的人交流,了解他们的故事,消除人与人的隔阂,领略不同语言所表达的智慧、爱与美。

机器翻译是帮助我们打破语言障碍的工具,但人类能否和谐共处,最终还是取决于我们自身。

(“别是一般滋味在心头”,谷歌翻译“理解”为:不要让一般的滋味在您的心头。)

这里是研究世界怎么运转的视知TV,我们下期再见。

参考资料:

[1] 邸利会,《几十年的领域专家告诉你,机器翻译进化到哪一步了?》,“赛先生”微信公众号,2019-03-16

[2] 钱婧,《翻译的过去与未来:机器翻译会取代人工翻译吗》,新京报书评周刊, 2019-10-12

[3] 蔡基刚,《AI时代,高校翻译专业会消亡吗》,中国科学报,2019-09-04(004)

[4] vas3k, "Machine Translation, From the Cold War to Deep Learning", vas3k.com, 2018-02-07

[5] Douglas Hofstadter, "The Shallowness of Google Translate", The Atlantic, 2018-01-30

[6] Ankur Bapna, “Exploring Massively Multilingual, Massive Neural Machine Translation”, Google AI Blog, 2019-10-11

[7] Y. Wu, M. Schuster, Z. Chen, Q.V. Le, M. Norouzi, et al. "Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation", arxiv.org, 2016-09-26

[8] 何中军,《神经网络机器翻译技术及应用》, “机器翻译观察”微信公众号 2019-03-22

[9] “Test and Score Data Summary for TOEFL iBT® Tests”, ets.org, 2017

[10] 机器之心编辑部,《AI同传新突破:搜狗同传3.0首创「语境引擎」,PPT内容翻译正确率提高40%》,机器之心,2019-12-25

[11] 搜狗AI开放平台,《AI同传现状:不完美,但有价值》,知乎,2018-09-23

机器翻译怎么翻“奥利给”?

图文简介

机器翻译怎么翻“奥利给”?