书名:带你探析思考的本质(5册丛书)(湛庐塑造精品,侯世达、平克、丹尼特等世界级大师,带你打开思维,改变人生!)
作者:丹尼尔·丹尼特 & 侯世达 & 斯科特·佩奇 & 丹尼尔·平克 & 西蒙·斯涅克
书号:Amazon.com
格式:EPUB
出版:浙江人民出版社
出版日期:10月 2020
大小:42.36MB
语言:中文
机器翻译也能这么做吗?有没有可能出现那么一天,计算机程序也能作出如此高超的翻译?几十年前,有些研究机器翻译的学者对该领域取得的成就感到不满,开始质疑整个领域使用的方法——绝大多数是字词匹配与语法规则,他们开始另辟蹊径。其中最具活力的想法便是基于统计的翻译,如今这已是解决翻译挑战的重要策略。
这个方法基于统计进行有根据的猜测。所有这些猜测都基于存储着海量双语文本的数据库,而这些文本都是经由人类专家仔细翻译的。一个典型的例子便是联合国平行语料库。该语料库包含六种语言,即阿拉伯文、英文、西班牙文、法文、俄文,以及中文。这样的数据库是语言信息的绝妙宝库,但必须有人懂得如何利用它。
基于统计的机器翻译的基本原理是,把一段输入的文本,也就是要翻译的文本,切分成“块”,并根据各“块”所处的语境,选出最恰当的意思。每个“块”可能是一个字或是一个或多个词。试想,这个引擎正在把中文翻译成英文。在双语数据库中中文的一侧,待译的中文块可能出现在上千种不同的语境之中。但在这上千种语境中,只有一小部分语境与原文的语境足够“相似”,比如说,只有20个。在此,“相似”与否是基于复杂的统计计算得出的。通过统计相似度来缩小范围的过程是这个方法的关键。在这种经由人工翻译的双语数据库中,每一段中文文本都有相应的英文文本。整个翻译问题看似被简化成了在文本中寻找对应的语块。可惜,这个想法太过乐观。通常来说,不存在明确对应的英文块,而是有很多备选方案。因此,一个好的候选需要有根据的猜测,比如进一步的统计计算,在此,我们忽略这些细节。简言之,这种基于密集计算的办法,利用了数据库中海量人工翻译文本的优势,那个与中文块“最接近”的英文块便是最终答案。