香港 广州 苏州
东莞 English 日本语
Español Deutsch Français
 
中文主页 | 翻译项目 | 质量体系 尊贵客户 翻译标准 优惠价格 | 自助下单 | 资源与信息 | 翻译FaQ | 联系博文
翻译资讯
 
 
   深圳翻译公司:语言翻译机何时才能“信达雅”
 

2012年12月21日,据博文深圳翻译公司了解到,最晚世界掀起“莫言热”,他的作品被广泛地译为多国文字出版。但是将几百万字的长篇小说翻译出来不是一件简朴的任务,因此良多网友设想是否可以将这个任务交给计算机。实在,这项技术已经泛起,近年来,机器翻译匡助我们解决了良多糊口中的题目,人们也越来越爱借助它的能力,穿越语言交流的屏障。那么计算机是如何运作,让不同语言相互转换的?科学家们有什么好办法让这个“懂外语的机器人”工作更有效率?它们终极会取代人类翻译吗?

先“海选”再“打分”机器翻译过程像选秀

辽宁日报:近些年,在高速发展的计算机科学推动下,世界进入了“信息爆炸”时代。未来,不同语言间的信息交流是必需的也是必定的。然而语言之间形成的壁垒,却阻碍了这种交流。这同样也明示着,谁能借计算机强盛的运算能力攻下天然语言翻译这座城池,谁就将在信息时代处于领先地位。朱教授,我们在使用互联网时,都或多或少地使用过机器翻译,但是可能大家并不太了解,一种语言是如何通过计算机摇身一变成为另外一种我们认识的语言的,请您为我们进行扼要的剖析。

朱靖波:好的。机器翻译又称为自动翻译,是利用计算机把一种天然源语言转变为另一种天然目标语言的过程。为利便理解,我将用大家比较认识的中英文互译做例子。

机器将中文翻译英文过程中,在拿到一段话以后,计算机首先要把这句话进行一些拆分,变成一些词汇,也就是我们说的分词。由于翻译过程不能基于字,必需是基于词的。分词过程面对的一个难点是分词歧义。好比下面的两个短语 “将来沈阳会很美”以及“我将来沈阳”中,都含有“将来”这个词,假如缺少准确的分词过程,而同一将其翻译为“Will”,显然是不妥的。所以只有准确的分词,才能得到正确的翻译。

接下来,计算机还需要根据一个词相邻的其它词作为参照,在每一个词的良多候选翻译义项中,筛选出最匹配的结果,得出准确的词义作为该词的翻译结果。在这一步,机器翻译程序会“瞻前顾后”,找出被翻译词的最佳对译词。好比英文“Bank”有“银行”、“河岸”两个常用的词义,假如前后文中泛起了“Money”(钱)这个词,它就会选择“银行”这个翻译结果。

在完成细节操纵后,机译进入结构转换阶段,就是我们所说的调序。这就犹如我们将一台机器的各个零件都出产完毕后,再按照一定的规则将它们拼装起来。

当然,这样的翻译结果并不是完整的,机译的最后一个阶段就是润饰阶段,也就是说机译程序还会将上面得到的结果做一些添加或者调整时态等的工作,让译文更加通畅,更便于理解。

总体说来,筛选词义及调整结构,是机译过程中的核心部门。

辽宁日报:机译过程中蕴含着什么样的技术原理呢?

朱靖波:我们知道,每个单词都有不同的翻译方法,而这些单词按照不同规则组装在一起时,又会增加更多的意义组合,此外,还会碰到调整顺序等一系列题目。这就造成机译过程中一句话的翻译会有极多的可能,计算机没有办法将这些可能逐一穷举。在这种“组合爆炸”情况下,计算机要在所有可能中,找到尺度谜底。

也就是说,这其中蕴含着两个大的题目:一方面是我们要如何找到一套好的评价规则,让它们像选秀节目中的评委一样,对每一种翻译可能打出准确“评分”;另一方面计算机还需要在很短的时间内,找到得分最高的那位“选手”,将其呈现在我们眼前。

“规则法”只认死理儿“统计法”可自主学习

辽宁日报:机器翻译这项技术是如何应运而生的呢?

朱靖波:固然从古至今,良多科学家都曾经尝试过用机器来替换人进行翻译以跨越不同语言造成的交流障碍,但真正具有里程碑意义的事件却发生在1949年。那一年美国数学家沃伦·韦弗发表了 《翻译备忘录》,正式提出了机器翻译的思惟。在二战刚刚结束,美苏争霸序幕即将拉开的时代背景下,韦弗将机器翻译定义为一种加密解密的过程,也就是说他将俄文材料视为密码,但愿通过一定的技术手段将其转化为英文。当时在美国政府的支持下,这项技术一下子就“火”起来了。但是当时计算机、语言学等相关技术的水平有限,这项技术徐徐衰落。

进入20世纪70年代后,计算机科学、语言学研究的发展以及民用需求的增加,再次推动了机器翻译研究的复苏。

20世纪70年代末至80年代末,机器翻译研究进入了繁荣期。这一时期,靠专家们写下一条条翻译规则,计算机“惟命是听”的方法逐渐成熟。同时,从大量语料中自动“磨练”翻译技能的方法,也开始崭露头角。

20世纪90年代,能够依赖大量语料自主“学习”的机器翻译技术迅速发展,风头逐渐超越之前的技术。现在的机器翻译理论,可以说是一个多种方法混合、并行发展的时期。

辽宁日报:这两种翻译方法听起来很有趣,它们都有什么优缺点?

朱靖波:实在,机器翻译这项技术中也包含着哲学思惟,我们通常将机器翻译的方法分为理性主义方法和经验主义方法,也就是上面讲到的靠专家写规则计算机来执行的方法(基于规则)以及根据大量语言材料自动学习的方法(基于语料库)。前者由词典和规则库构成知识源,后者由经由划分并具有标注的语料库构成知识源,既不需要词典也不需要规则,而以统计规律为主。

基于规则的方法就像刚学话的小孩子一样,教一句就会一句,不教就不会。假如它的知识源中没有前例,它就“罢工”不干了,不外它的翻译正确度相对高。一种简朴的基于语料库的方法会知道去语料库中寻找相似的句子,并对源句进行适当改动,得出翻译结果。但更加高级的基于语料库的方法是利用机器学习和数学建模技术来实现自动翻译系统构建,常称为统计机器翻译。这种方法效率高、翻译能力也强。

有个形象比喻,基于规则的方法就像“傻子”,认死理,多一点都不会。而基于统计的方法就像“疯子”,什么都能干,有时候干得非常好,但有时候“活儿”比较粗,可能干的不好。

机器翻译确当前定位不是“替换”是“分担”

辽宁日报:目前计算机可以翻译多少种语言?

朱靖波:以目前机器翻译的能力和水平,只要有足够的数据,世界上所有语言都是可以被翻译的。

辽宁日报:任意两种语言,机器翻译的难度都相同吗?

朱靖波:这个难度是不一样的。假如两种语言,结构很相似,翻译时只需要把不同语言的词换一下,那么显然难度是很小的。说到底,这和语系相关。好比与汉英翻译比拟,英德互译机能较好,由于它们都属于印欧语系日耳曼语族。而汉英不属于统一语系,汉语属于汉藏语系。

辽宁日报:在《人民日报》近日的一篇文章中提到谷歌翻译目前处于领先地位,这是由于他们把握了什么核心技术吗?

朱靖波:实在从理论角度讲,谷歌机器翻译与良多公司的机器翻译贸易产品没有什么本质上差别,应用的都是比较成熟的基于短语的统计机器翻译技术。只不外在一些细节部门,因为谷歌据有的双语数据量比较大,所以有一定的上风。此外,谷歌硬件平台的计算能力比较强,再加上机译工程的一些题目解决的比较细致,所以才显现出相对上风。

辽宁日报:目前机器翻译碰到的最大难题是什么?

朱靖波:由于机器翻译的本质仍是模拟人的翻译过程,而在这个过程中,我们对于理论模型的研究还不够成熟。好比人工翻译会运用到词法、语法、语境、语用等知识,但是这些知识要建立数学模型将它们表现出来,是很难题的。

另外,机器翻译所依靠的计算机运算平台,还不够强盛。如刚才说的,假如计算机运算能力得到进步,它就会从海量的翻译可能性中查找更多更公道的谜底,而筛选环节也会更加细腻,使翻译效果更好。

辽宁日报:在人工翻译的光环下,我们应该如何给目前的机器翻译技术定位?

朱靖波:目前机器翻译技术固然还没完全成熟,但是我们依然能在它身上看到极其难得的“闪光点”,特别是在一些用户对翻译结果要求不长短常高时,更能看到它的可贵之处。好比说我们在浏览外文资料时,不需要精读,而只要了解大概内容,那么机器翻译可以快速地帮我们达成这种意图。

机器翻译目的不是为了替换人工翻译,而是减少人工翻译付出的代价。在翻译精度要求不高的情况下,机器翻译完全可以胜任。假如需要高质量的翻译,那么人们可以在机器翻译的结果上做少量的修改,从而得到理想的效果。有人做过实验,目前机器翻译把人工翻译的效率晋升20%至30%,甚至更高。所以我们有理由相信在计算机专家、语言学家、心理学家、逻辑学家和数学家的共同努力下,机译的前途将会是十分光明的。 本报记者/王 亮

专家档案

朱靖波 博士。东北大学信息学院教授,博士生导师,计算机软件研究所副所长、党支部书记,天然语言处理实验室主任,沈阳雅译网络技术有限公司创始人。兼任中国中文信息学会理事、中国人工智能学会天然语言理解专业委员会委员、中国中文信息学会机器翻译专业委员会委员等职,自从1992年开始一直主要从事多国语机器翻译理论和枢纽技术研究工作,曾带领实验室多次参加国际NTCIR和海内CWMT“机器翻译”翻译评测,获得第一和第二的成绩,主持研制的NiuTrans开源机器翻译系统已经被600多家海内外研究机构和个人下载研究使用。

【温馨提示】如您遇到翻译困难或者有翻译需求,可当即拨打博文深圳翻译公司全国免长途费咨询热线:+86-755-8304 2538(一生我帮您!)我们为您提供解决方案,更多详情请浏览:

博文翻译公司品牌网站:http://previous.bowwin.com/

博文翻译公司产品网站:http://www.4008813580.com/


 


中国互联网信息服务业务许可证号:
粤ICp备05036433


深圳市博文翻译有限公司对其发行的包括但不限于产品或服务的全部内容及博文翻译网站上的材料拥有版权等知识产权,受法律保护。
博文Bowwin是博文深圳翻译公司的注册商标,版权所有。