英语原文共 19 页,剩余内容已隐藏,支付完成后下载完整资料
混合机器翻译概览
摘要
本章节对最近混合式机器翻译的研究进行了介绍。这些主要的MT范例和它们在不同深度级别的集成按照其组合技术和以基于规则的统计系统为指引的整合策略的顺序被介绍。由于系统合并是将翻译的输出内容合并起来,它不涉及任何混合技巧。它能以包括 句子 半句 和段落水平的不同颗粒度被处理。在考虑更深度的结合时,应用了基于规则方法的结构引入了统计学来丰富系统的资源 模块以及核心。
1 介绍
机器翻译(MT)一直是一个很活跃的研究领域,特别是在最近的十五年。统计机器翻译(SMT)的兴起有助于机器翻译的扩展与延伸,如果平行语料库可用,则可以翻译 任何具有可接受质量的文本,或至少用于基本理解。 但是SMT 似乎已经达到了高原,在其增长同时,几种方法已经开发出不同的MT范例下的标签的混合MT(HMT)。
关于每个主题发表的论文数量是之前所提一个定性的量度 。 图 1示出了出现在机器翻译领域的作品的数量。90年代几乎没有这方面的文献。该情况可能有以下几个原因:(1)虽然大多数会议论文会在列表中,并不是所有的期刊文章都出现; (2)论文作为教程或邀请会谈被考虑; 和(3)在列表之间存在重叠。 MT的大部分生产目前是由于 SMT,作品数量比其他MT高一个数量级 范例。 另一种主导方法,基于规则的MT(RBMT),一般来说更复杂,也就是说,它的开发是昂贵和耗时的。 虽然这些 系统是基于经验的,大多数系统也是商业的。开始时,论文的数量较小。 最后, 另一个基于经验的方法,基于实例的MT(EBMT),占主导地位。从本世纪之交到2002年,EBMT的作品数量比SMT更多。 从那时起,SMT的成功影响了EBMT及其生产 。在过去十年中,还发表了数百篇有关HMT的论文。 主要区别是 对于后者,通过单独输出的组合创建出最终输出, 也就是说,没有各个翻译引擎的实际集成。 并行完成的ME系统; 还包括作为预/后编辑顺序完成组合。 在随后的现有技术中,SC还包括对ME翻译的工作。相反地,HMT通常意味着系统架构的集成。 然而,限制是模糊的,一些作品可以分为三组。 在本次调查中,我们根据颗粒度区分SC和HMT 各个系统架构之间的混合。 系统组合的本身被合并与创造。以从数据中学习。 在 与统计解析器相同的方式可以用于分析源语句, 单语或双语语料库可用于获得双语词典或学习 转移规则。 在这一点上,SMT系统中使用的技术
过去十年 HMT 方面有上百的论文被发表。(图一)这些各有异处系统的类型包括多引擎系统(ME)和系统合并(SC)。后者中的主要区别在于最终的输出是分个输出的组合而非真正的分个引擎的组合。如果组合是在平行中完成我们指的是ME,而SC更多样化也可以包括合并是按次序完成的,包括前加工/后加工版本。
图一 自2000年来 机器翻译不同图式领域发表论文的数量
2 机器翻译图式
完全自动的机器翻译系统可根据其在图2中表示出的主要图式(基于规则的 或基于实验经验的)而分类。主要的区别的特征是其使用的资源。前者主要使用语法和词典来翻译。它需要一组人类专家来建立一组规则,这通常很慢,昂贵与不便携但它有更好的翻译输出质量。后者系统有两个依赖平行数据的方法:基于实例的机器翻译和统计型。对于基于实例的系统,新的翻译是由先前的翻译组合起来。而统计型则考虑建立一个概率模型。这两个系统都长于词汇选择与流利性但语法方面比基于规则的糟糕因为它们没有考虑到长度依赖性。
现在,这是一个不成熟的分类法因为大多数系统同时采用数据和规则。规则可以轻松用于处理从统计型系统中得的来的数据,这样的系统直接使用了一种更彻底的方法因此被包括进了第三个分类 混合型系统。
Fully Automated Machine Translation Systems
Rule-based systems
Hybrid systems Empirical systems
Example-based
Translation
Statistical Machine
Translation
Neural MT
Direct Transfer Interlingua
Phrase-based Hierarchical
Phrase-based
Syntax-based
图二 全自动型的机器翻译系统的分类
2.1 基于规则的机器翻译
在图3的韦氏翻译三角中,一个翻译系统中用到的数量和语言技术分为直接 翻译和通过中间语言。三角底部的直接方法直接进行词对词的翻译。在转化系统中存在一个对源语言(SL)的句子的语义学分析,以此获得句子的抽象表示。这个表示被转化成靶语言(TL)的抽象表示。对于中介方法,此种抽象表示对于所有语言来说应该都相同,所以没有必要再多一个转化步骤。
2.1.1 转化系统
大多数主流的RBMT都是转化系统,中间系统在建立时更适合特定的邻域或更受控的语言。浅度的系统考虑形态学和以最浅的剖析(句法转换)。深度的系统采用复杂的分析树和可能的词法因素(词法转换)。
在分析中,需要有一个处理器在源语言中剖析输入,语法和词典。随后,语法被用来进行结构转化,双语词典则用作词汇转化。最后 靶语言中的一代语法和可能的词汇产出了最后的翻译。这些规则和词典原则上说可以从数据中习得。同样,统计分析器可用来分析源语言,单语种或多语种语料可用来获得双语词典或者转化规则。图4中 SMT系统的技术在这一点上很有用。统计型系统也可用作前处理或后处理步骤来消除不明意在不同的翻译选择中抉择。
TRANSFOR
SL DIRECT TL
图三 韦氏翻译三角
2.2 统计型机器翻译
此种系统通过统计全部文集中的频率量来预估或然的语言与翻译模型。对一个语言模型,靶语言的多语种的数据是需要的。翻译概率从靶语言与源语言的联系中提取,因此平行数据被用来建立翻译模型。最后,一个统计型系统中最好的翻译是模型产出的最大化。
此型系统中的区别主要由最小单元的定义不同中来(如 单词 短语 和段落)。从基于规则的翻译系统获得的词典和/或段落可助于完整同行语料的翻译,规则可用于重新排序输入或输出以此作为一种前处理或者后处理方式。(图 四 )
2.2.1 基于短语的系统
基于短语的系统是词对词系统的自然演化。以短语来代替单词时,小范围的上下文和本地的对每个词的重新排序被考虑。此处的一个短语只是一组词组成的序列,但它不一定是靶语言与源语言间词对齐的语义成分。这是积极的因为这些从语料中提取的短语的数量比语法结构组成量,故使翻译中有更多自由,但另一方面,对噪音短语的提取会导致不符合语法的结果。
2.2.2 基于句法结构的系统
此种系统采用相反的方法,利用句法结构元素。其基本思想是采用可以同时应用于处理源语言和靶语言的句法规则。句法结构方面的语法从平行语料中习得,故使得此系统与基于短语的统计型机器翻译系统相比很慢。
2.2.3 有等级制度的基于短语系统
此系统在单纯的基于短语的统计型机器翻译系统与基于句法结构的系统之间得到平衡。一个具等级的短语由单词和子短语组成,此处的等级意在取得短语间的重新排序。等级短语对从不具有语法信息的平行语料中取得的一时性的没有上下文的语法中来。如作者述,当系统在用无上下文语法时时基于句法结构的,但不是语言学上的基于句法结构,因其平行数据不包括句法结构信息。
.
表一 系统合并归纳
颗粒度 |
参考 |
句子水平 |
Callison-Burch and Flournoy (2001), Nomoto (2004), Akiba et al. (2002), Costa-jussagrave; et al. (2007), Formiga et al. (2013) |
句组水平 |
Frederking and Nirenburg (1994), Bangalore et al. (2001), Jayaraman and Lavie (2005), Matusov et al. (2006), Sim et al. (2007), Rosti et al. (2008), He et al. (2008), Mellebeek and van Genabith (2006) |
段落水平 |
Li et al. (2009), DeNero et al. (2010), Duan et al. (2011), Okita and van Genabith (2012) |
图4
基于规则系统与统计型机器翻译系统的输入与产出的对比
3 系统合并
这是一种颇受欢迎的将不同图式聚到一处的机器翻译的研究方向,由在多种机器翻译引擎的多种选择中挑选出最高质量的输出组成。因此此种合并不针对一体化系统架构,而只是在先前提到的挑选中选出的系统输出的翻译。
基本上说,机器翻译的输出可以三种不同水平整合:句子,句组,段落。前两者或取每个可用系统中最好的输出或取一串次好的输出列表。
3.1 句子水平的合并
它的颗粒度最低。此种水平上系统合并很大程度被假设最好的翻译来自于最流利的翻译的语言编码模型所提供的信息的使用所影响。Akiba等人提出两种采用不同的合并语言和翻译模型的方法来选出最好的翻译。Costa等人用两个系统的得分把 和基于短语的翻译系统的输出合并起来。这些得分包括前述的语言翻译模型也含其他标准的统计型机器翻译特征。最近的方法如Formiga等人在SVMs和随机森林中采用的数个可信度测量来重新评级第n好的翻译输出。
3.2 句组水平的合并
更进一步的是以句组水平的逻辑获得最好的翻译输出。最早的此类工作将三个从不同生态中来的机器翻译引擎结合成一个数据表结构。它甚至先于句子水平的合并系统,采用探索式度量每个语料块的质量来获得最好的翻译结果。几年后,Banglore等人采用一单态对齐来从几种翻译假设中建造一个存疑的网络。对齐在合并中很重要,随后Lavie等人提出一种非单态式对齐。其中整个文档的上下文被考虑到。随后,Sim等人应用翻译错误率(TER)来提取对齐。Roati等人用来源于衍生的线性模型来进行可信度评分。
而在句组合并中,Mellwbeek等人不依赖输出假设的词对齐,而是将输入句子用来多引擎处理。他们做到这个通过采用一个递归的产生单个可输入机器翻译引擎的语料块解码算法。通过合并最好的语料块的翻译得出一个一致的翻译。从大部分的投票中选出的三线型语言模型和一个可信度被分配给每个机器翻译引擎。
3.3 搜索段落水平的合并
作为颗粒度的顶端,在解码时会将一致的翻译整合起来。这是最近期也是最接近混合(杂交)型机器翻译的方法。Denero等人的将他们的系统定义为基于森林的技术将一致的解码和系统合并联合在一起。此种方法可以处理异种结构,唯一的要求是每个要被合并的系统要可以生成一座森林或者翻译的格子框架。
而Duan等人的工作显示假设的混合物的解码,这是一种新的采用多组成元素的系统的产出的系统。这种解码包括两个阶段:首先,每个元素系统要独立解码源句子。其次,一个新的搜索空间通过采用一套规则而产生的假设相编排起来而构建出。且一组新的特征被用来在新构建空间里搜索最好的翻译。最后,有一种采用最小阻绝危险的解码方法的系统被提到。
4 由机器翻译领导的混合型
合并不只一种引擎的方法是将不同方法进行混合。此法对在方法间取长补短很有益处。当存在可用的平行语料且翻译质量被数据数量影响时,统计型系统就可建立。因为句法选择从这些数据得以建立模型,好的句法选择和流利度是统计型机器翻译的优点,当特定邻域的数据是可得的时。缺陷是长句结构更难以处理即使是存在大量数据。
4.1 前/后处理整合
不同语言的人类手写规则或无语言学知识下的自动提取规则包含在采用前处理规则来重新排序源语言句子的方法。在以前的研究中,特定的规则被设计用于英-法 英-汉 英-德 英-印等语系转化中。
另一种不同的前处理类型是考虑正常化的处理,如存在数据噪音,聊天或非正式用语。一般而言,这种前处理在大多数统计型机器翻译系统中都有,但它不被当作一种混合技术。
在不能从靶语言中产生所有的语义多样性时,这些前处理方法被采用解决这些问题。此种情况,作者提出将机器学习与词典的引入的合体来产生不能从训练语料中观察到的语态形式。文学中,在类似方向也存在研究,但区别是所用的语言对,语态代际和反映信息都不同。
在另一方面,Rudolf等人引入一种自动化基于规则的能够后编辑SMT输出的工具。此工具采用一串规则来矫正MT输出的常见的或严重的错误。
最后,Farrus等人采用结合前处理与后处理的规则来解决嘈杂文本翻译中非正常化问题。语法目录用来解决省略符号,斜体,句首的大写字母等模糊语义问题。
4.2 核心整合
统计型机器翻译系统在更深水平上采用规则。Vogel和Monson将词典引入词组表来减少不认识的词。它专注于通过使用高频词和替代词语来在词典中寻找词来理解上
全文共9644字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[143053],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 为非政府组织OG慈善基金会设计的基于社区的救灾管理系统外文翻译资料
- 基于UML建模的医疗系统电子健康服务软件外文翻译资料
- 开发一种具有增强现实功能的智能手机应用程序, 以支持护理学生对心衰的虚拟学习外文翻译资料
- 在开发 Web 应用程序中应用 Vue.JS 框架外文翻译资料
- 基于MES系统的生产车间信息管理研究外文翻译资料
- 基于Vue.js和MySQL的电子商务平台的设计与实现外文翻译资料
- 详细的Spring配置和SpringBoot外文翻译资料
- 基于NS2的DSR和AODV协议的性能比较研究外文翻译资料
- 不同仿真参数下NS2的TCP吞吐量性能外文翻译资料
- 基于Spring Boot和VUE的车辆管理系统实现外文翻译资料