CASIA OpenIR  > 毕业生  > 博士学位论文
融合翻译记忆的统计机器翻译方法研究
其他题名Research on Integrating Translation Memory into Statistical Machine Translation
汪昆
学位类型工学博士
导师宗成庆 ; 苏克毅
2013-05-23
学位授予单位中国科学院大学
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词翻译记忆 统计机器翻译 基于短语的翻译模型 系统融合 Translation Memory Statistical Machine Translation Phrase-based Machine Translation System IntegrationSystem Integration
摘要近年来,统计机器翻译的研究十分火热,翻译性能不断提高,在某些特定领域和环境下已经开始投入实际应用。但是,基于翻译记忆的计算机辅助翻译软件却仍然独霸专业翻译市场,统计机器翻译系统几乎难觅身影。这是因为在特定领域中,如果待翻译文本与记忆库中的文本匹配程度很高时,翻译记忆的译文质量明显优于统计机器翻译的译文。考虑到统计翻译系统能够对源语言文本中不匹配部分给出相对较好的翻译结果,而翻译记忆能够对匹配部分给出较好的译文,因此,研究如何结合统计机器翻译和翻译记忆各自的优势,使其优势互补,对于提升机器翻译的译文质量,推动机器翻译在专业领域的应用,具有重要的理论意义和应用价值。 本论文首先从考查统计机器翻译和翻译记忆的特点出发,探讨两者结合的必要性和重要性。在详细、深入分析现有结合方法的优缺点基础之上,提出了我们的方法。区别于以前的浅层结合方法,我们以基于短语的统计翻译模型为基础,在解码过程中将翻译记忆和短语翻译模型进行了深层次的整合。论文的主要工作和创新点归纳如下: 1、提出了一种在解码层面进行深层次融合翻译记忆的统计机器翻译框架,达到了充分发挥各自优势、提高翻译性能的目的。 统计机器翻译模型一般只考虑源语言的局部上下文信息,并不考虑长距离的依赖关系,但人在翻译时是考虑整个句子的。因此,对模糊匹配系数比较高的句子,统计机器翻译的结果明显不如翻译记忆给出的参考翻译。在这种情况下,如果将翻译记忆融入统计机器翻译模型,就可以利用翻译记忆的信息产生更可靠的翻译。但是,现有绝大多数翻译记忆与机器翻译的整合方法都是采用管道式的多步法,仅仅在输出结果上进行了浅层次的结合,对翻译性能的提升幅度有限。为了更有效地结合二者的优点,我们在基于短语的翻译模型基础上,提出了一种融合翻译记忆的统计机器翻译新框架。在这一框架下,我们对翻译记忆和短语翻译模型在解码层面上进行了深层次整合,从而避免了现有方法的固有缺陷,取得了更好的翻译性能。 2、在上述框架下,提出了三种由简到繁的整合式模型。 在上述新框架下,本文提出了三种由简到繁的整合式模型。在整合式模型中,我们引入了三种不同的特征集:模糊匹配区间索引、源语言短语链接状态特征和目标语言短语匹配状态特征。然后在每个模型中,我们还分别考虑了不同的新特征对性能的影响。同源数据实验表明,这三种整合式模型都取得了良好的翻译性能。特别是考虑了语序信息的整合式模型(三),当模糊匹配系数比较高时,无论是以翻译结果的BLEU值,还是以TER值作为评价标准,都统计显著地优于统计机器翻译系统和翻译记忆系统。这说明模型(三)不仅可以改善翻译系统的翻译质量,还具备应用于辅助翻译市场的条件。此外,整合式模型(三)还统计显著地优于现存的最好结合方法。 3、针对异源数据的翻译特点,通过在解码器中动态扩充短语表来进一步优化了上述翻译模型。 针对异源数据情况,本文为整合式模型提出了动态扩充短语表的方法。在同源数据情况下,由于机器翻译系统的短语表几乎已覆盖了所有翻译记忆可提供的连续短语对,因此不需要动态扩充...
其他摘要In recent years, the research on Statistical Machine Translation (SMT) is getting hot and the performance of SMT has been improved a lot. In some specific domains and environments, SMT has been applied in real applications. However, Computer Aided Translation (CAT) software, based on Translation Memory (TM), rather than SMT, still dominates the professional translation market. This is because the quality of TM is still significantly higher than that of SMT for those sentences, which have high fuzzy matches in TM database. Since TM and SMT complement each other for those matched and unmatched parts, it is desirable to integrate TM into SMT to further improve its quality so that we can promote SMT in the professional translation market. This dissertation focuses on integrating TM into the phrase-based SMT system. The main contributions are summarized as follows: 1. We propose a new framework to integrate TM into the phrase-based SMT system. The SMT model usually only considers the local context but ignores the long distance dependency; however, translators do the work based on the whole sentence. Therefore, the results of SMT are inferior to that of TM system for those sentences with high fuzzy match scores. In that case, the system conditions on TM can generate much better translations. This is because more context information implied by TM can be implicitly utilized. Almost all the current approaches that combine TM and SMT adopt the pipeline architecture, in which the combination is conducted in a shallow level. The improvement that can be obtained is thus very limited. Therefore, a novel framework is proposed to integrate TM into the phrase-based SMT. Under this framework, TM and phrase-based SMT can be integrated in a deep level. We thus overcome the drawbacks of current approaches and obtain better performance. 2. Under the new framework, we propose three integrated models. Three integrated models are proposed, which are from basic to advanced. Three different kinds of features are introduced in those models: fuzzy match interval index, source phrase linking status and target phrase matching status. The experimental results show that all these three models achieve good performance. Especially, when fuzzy match score is high, Model-III, which incorporates the content matching status, the candidate set status and the position information of target phrase, significantly outperforms both SMT and TM systems in both BLEU and TER scores. This illustrates ...
馆藏号XWLW1832
其他标识符200918014628048
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6510
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
汪昆. 融合翻译记忆的统计机器翻译方法研究[D]. 中国科学院自动化研究所. 中国科学院大学,2013.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
200918014628048汪昆2.p(2061KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[汪昆]的文章
百度学术
百度学术中相似的文章
[汪昆]的文章
必应学术
必应学术中相似的文章
[汪昆]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。