注:顶上虚线为完美的翻译;红线为人工翻译水平;绿线为谷歌神经机器翻译(GNMT)水平,蓝线为基于短语的机器翻译(PBMT)。
在给出的五个语言对中,我们可以明显地看到,同属于印欧语系的英语、法语和西班牙语在互译时,GNMT水平则更加接近于人工翻译水平。而汉语属于汉藏语系,所以不管是汉译英还是英译汉,GNMT和人工翻译之间尚有一定的差距。
具体来讲,我认为GNMT的困难之处仍有以下几个方面,这也可能是Google正在试图解决可以继续提升的方向(以下以中英翻译为例):
1. 成语、谚语、歇后语的翻译。Google需要将中英词典中现成的词条集成到自己的翻译数据库。这个对于Google来说难度不大。(知乎网友拿《百年孤独》的开头调教GNMT,简直太傻,他大概没想到Google Translate的爬虫可能早已爬过这句的各种译法并利用算法做了最佳优化。)
2. 流行语的翻译。这也是这次社交网络上网友们各种奇葩例子所诟病的。不过据说GNMT用的是和AlphaGo同样的一套智能系统,所以这个对于Google来说难度也不大。毕竟那条Alpha狗具有超强的自我学习能力,辅之以Google庞大的信息库,超越人类,指日可待。(有网友发现,“图样图森破”的翻译已经更新了。LOL)
3. 诗词的翻译。在目前翻译版本参差不齐和数据不全的情况下,这可能是一个难点。不过新版的GNMT提供了在线更正/更新功能供用户使用。有一点类似于维基百科的贡献与共享模式。众人拾柴火焰高,大家一起建立翻译记忆库(Translation Memory)。
4. 翻译时同义词、近义词的选择(尤其是形容词)困难。可能汉语作为一种表意语言,所以英译中时这个问题会更加突出和困难。尤其在文学作品的翻译中,这一点将会被更加明显地放大。这属于GNMT需要分析翻译对象所处的上下文语境(Context)的情况之一。
5. 中文语言中介词的模糊使用导致的翻译困难。不同于词性和语法清晰的英文,中文在太多的情景下,介词是模糊使用甚至省略的。亦可以说是中文状语要远远比英文状语表现地暧昧(包括时间、地点、方式等等)。所以这也是另一种需要分析上下文语境的情况。
6. 中英文时态和语态的差异给翻译带来的困难。众所周知,中文的动词本身不会因为时态的不同而产生变形,表达过去、现在和将来更多的是靠不同的助词或者叹词或者时间名词来完成(比如强调过去式或者完成式可能需要用“了”,而口头强调将来式通常并不会生硬地去讲“我将要如何”而是直接用“明天”一词辅助。)语态就更不用说,讲“挨骂”一定比“被骂”地道的多,使用频率也高。
7. 中英文句子结构和语法的差异带给GNMT的翻译困难。中文是有语法的,但是讲中文的时候我们又很少顾及语法。而英文不管是句子结构,还是语法,远比中文要来得严格缜密。这样大结构的差异则会带给Google Translate巨大的困难。所以如果你用新的GNMT分别测试简短的句子和复杂的长句,翻译表现则有云泥之别。
因此,Google Translate虽然在取得里程碑式的突破技术的同时,但要想达到人工翻译的水平,甚而向“完美的翻译”(Perfect Translation)看齐,仍有很长的路要走,很多的困难亟待解决。但是,以当前的科技(比如人工智能)发展速度推测,机器的进步和提升一定会越来越快,进而对相关行业产生颠覆性影响,比如可以遇见的便是,语言学习的必要性会越来越低,语言教师和翻译人员的需求同样会降低,再或者翻译公司和语言培训机构的倒闭,再近一点,计算机辅助翻译工具(CAT:Computer Aided Translation,比如当前流行的Trados、MemoQ、雪人等)的消失和各大高校MTI专业的不再吃香。
这也是历史发展的必然趋势,和18世纪蒸汽机的发明引起的第一次工业革命最终解放手工劳动有着相同的原理。