CASIA OpenIR  > 毕业生  > 博士学位论文
面向大规模双语语料的层次短语统计机器翻译技术研究
其他题名Research on Hierarchical Phrase-based Statistical Machine Translation with Large-scale Bilingual Corpus
付晓寅
学位类型工学博士
导师徐波
2014-06-19
学位授予单位中国科学院大学
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词层次短语 大规模数据 模型优化 统计机器翻译系统 Hierarchical Phrase Large-scale Data Model Optimization Statistical Machine Translation System
摘要近年来,层次短语翻译系统逐渐成为实用的统计翻译系统之一。通过引入形式化的句法结构,层次短语翻译系统能够有效处理短语翻译系统所面临的长距离调序、规则泛化等问题。由于层次短语翻译模型在训练时不需要引入任何句法知识,因此特别适合构建面向大规模数据的统计翻译系统。随着计算机技术的不断发展以及翻译语料规模的逐渐增加,构建面向大规模双语语料的层次短语翻译系统不仅成为研究的热点,而且具有一定的实用意义。 然而,在构建面向大规模双语语料的层次短语翻译系统过程中仍然面临着不少问题:1)训练层次短语翻译模型的互联网语料包含较多噪声信息,直接使用这种语料有时容易导致翻译性能降低。2)启发式的层次短语模型训练方法生成较多冗余和错误的规则。这些规则不仅增加了系统存储的压力,而且容易产生错误译文。3)层次短语规则之间缺乏一定的上下文信息,在句子结构复杂的情况下很难得出正确的翻译结果。4)层次短语规则在泛化时缺乏一定的语言学约束,产生较多不符合实际语法的翻译规则,造成系统解码路径的选择困难。5)传统语言模型查询效率较低,难以满足大规模层次短语翻译系统对模型查询的需求。6)随着双语语料的增加,层次短语翻译系统的搜索空间逐渐扩大,因此对系统的准确性和实时性都提出更高的要求。 为了解决上述问题,本论文分别从平行语料获取、翻译模型优化、语言模型优化以及解码器优化角度出发,重点研究面向大规模双语语料的层次短语翻译系统优化方法。论文的主要研究内容包括如下部分: 1、提出基于强制解码的平行语料获取和翻译模型训练优化方法 本文采用强制解码的方法从包含噪声信息的双语语料中获得对齐质量较好的平行语料。该方法可以直接从双语句子中定位平行片段,极大地扩展了双语语料的获取范围。其次,针对启发式层次短语模型训练方法存在的规则冗余和概率估计问题,本文提出采用强制解码的方法对层次短语模型进行训练,从而得到性能较好的翻译模型。 2、提出基于规则嵌套的翻译模型优化方法 层次短语翻译规则之间缺乏一定的上下文信息,造成翻译解码时无法对错误译文进行有效判断。本文提出一种规则嵌套模型描述源语言规则之间的上下文关系。此外,我们引入最小层次短语规则以减少翻译模型的规模,同时有效避免统计规则嵌套模型时的数据稀疏问题。实验结果显示,融合层次短语规则嵌套模型可以显著提高系统的翻译性能。 3、提出基于名词性短语的翻译模型优化方法 本文提出一种基于迭代的名词性短语获取方法,并对层次短语翻译规则进行优化。一方面通过约束翻译规则中的非终结符为名词性短语,增加翻译规则的描述能力;另一方面通过约束翻译解码路径,对不符合名词性约束的路径进行惩罚。实验结果显示,采用该方法能够得到质量较高的名词性短语,同时显著提高层次短语翻译系统的性能。 4、提出基于加权有限状态机的语言模型优化方法 本文提出一种基于加权有限状态机的N元语言模型快速查询方法。该方法把语言模型的查询过程看作查询状态在有限状态机上的状态转移过程,从而有效减少语言模型查询的冗余操作,实现模型查询效率的...
其他摘要In recent years, the hierarchical phrase-based (HPB) statistical machine translation (SMT) system has become one of the most practical translation systems. By using the formal syntactic structures, the HPB translation system can effectively deal with the problems (e.g., long-distance re-ordering, rule generalizing, etc.) that can not be handled by the phrase-based translation system. Since the HPB translation model does not require any syntactic knowledge in training process, it is quite suitable for building SMT systems with large-scale bilingual data. In addition, with the development of computer technology and the increment of bilingual corpus, how to build a large-scale HPB translation system has become a hot topic for research. However, there are still a lot of problems in building the large-scale HPB translation system. 1) The bilingual data from the Internet contain quite a few noises, which may lead to translation errors. 2) The heuristic trained HPB translation model (TM) contains a large number of redundant and incorrect rules, which increase the difficulty in storage and cause the reduction in performance. 3) The HPB rules are lack of context relationship, which makes it difficult to get the correct result when the sentence is complex. 4) The HPB rules are generalized without any linguistic constraints, which bring in many ungrammatical rules and meet difficulty during decoding. 5) The language model query speed is low, which does not satisfy the large-scale HPB translation system. 6) With the increment in training data, the search space for HPB translation system has also expanded, which puts towards a high request on the decoder. In order to deal with the problems above, the paper focuses on the optimization for large-scale HPB translation system in obtaining parallel corpus, optimizing the translation model, optimizing the language model and also optimizing the decoder. The main contributions of this paper are summarized as follows: 1) The parallel corpus acquisition and training optimization based on force decoding. We introduce force decoding to evaluate noisy data in bilingual corpus. This method can distinguish the parallel fragment in comparable data, which makes it suitable for the acquisition for large-scale parallel corpus. Moreover, we also use this method to filter and optimize the heuristic-trained HPB model. 2) The proposal of Nesting HPB model with minimal rules The HPB rules are lack of context relationship, which make...
馆藏号XWLW2010
其他标识符201118014628036
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6652
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
付晓寅. 面向大规模双语语料的层次短语统计机器翻译技术研究[D]. 中国科学院自动化研究所. 中国科学院大学,2014.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20111801462803(2522KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[付晓寅]的文章
百度学术
百度学术中相似的文章
[付晓寅]的文章
必应学术
必应学术中相似的文章
[付晓寅]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。