CASIA OpenIR  > 毕业生  > 博士学位论文
基于语言结构知识的统计机器翻译方法研究
其他题名Approaches to Statistical Machine Translation based on Linguistic Structural Knowledge
翟飞飞
学位类型工学博士
导师宗成庆
2014-05-23
学位授予单位中国科学院大学
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词统计机器翻译 翻译模型 句法结构 无监督树结构 谓词论元结构 Statistical Machine Translation Translation Model Syntactic Structure Unsuperviesd Tree Structure Predicate-argument Structure
摘要近年来,统计机器翻译研究取得了长足的进步,译文质量不断提高。由于自然语言句子本身存在的层次结构属性,使得两种语言的句子结构在进行自动转换和翻译时面临较大的困难,因此在机器翻译研究持续发展的过程中,如何充分挖掘和利用句子中所蕴含的语言结构(包括句法结构和语义结构等)知识成为统计机器翻译建模的关键性核心问题。 在当前的机器翻译研究中,基于句法结构的翻译模型逐渐进入成熟期。然而,由于该类模型往往受限于双语之间的结构差异,且句法结构无法表示句子内部的语义信息,因此人们开始慢慢将研究重点转向基于语义结构的翻译模型。也就是说,目前的机器翻译研究正处于从基于句法结构的翻译模型向基于语义结构的翻译模型转型的特殊阶段。基于这一研究背景,本文以句法结构和语义结构为基础,致力于研究和改善当前基于语言结构知识的翻译模型。论文的主要工作和创新点归纳如下: 1、 提出一种改进的树到树翻译模型 树到树翻译模型能够同时把源语言和目标语言的句法结构融合到翻译进程中。理论上讲,树到树翻译模型是最为完善的基于句法结构的翻译模型。然而,在实际应用中,树到树翻译模型却往往难以取得理想的翻译效果。为了探索该模型翻译质量不好的原因,本论文对树到树翻译模型进行深入分析,并发现了导致这一结果的主要原因:双语两端的句法结构对整个翻译过程进行了太过严格的限制。在这些硬性的句法限制下,许多有效的翻译规则无法获取,解码空间太过狭小,导致翻译性能大幅度下降。针对这一问题,本文提出一种改进的树到树翻译模型,通过利用双语短语和句法树二叉化的方法来缓解树到树模型中的硬性句法限制,使之能够在保证树到树模型的理论优势条件下,松弛双语句法结构对翻译过程的限制,以求获得更好的翻译结果。实验结果也表明,改进之后的树到树模型译文质量大幅提高,并且显著地超越了经典的短语翻译模型。 2、 提出一种基于无监督树结构的翻译模型 虽然基于句法结构的翻译模型取得了较大的成功,但它们仍存在两个固有的缺陷:首先,句法结构的获取需要句法分析器,而句法分析器依赖于人工标注的树库资源,导致许多资源匮乏的语言对无法构造该类翻译模型。其次,由于句法分析只是专注于自身语言结构的合法性,而忽略了词对齐和双语映射信息,导致许多非常有效的翻译规则无法获取,大大降低了规则的覆盖率。因此,从这个角度来说,目前的句法结构并不是机器翻译的最优选择。为解决这两个问题,本文研究并提出了无监督树结构的概念。与传统的句法结构相比,无监督树结构能够对双语映射进行有效地建模,并且不再依赖人工标注的树库资源。为了构造这种无监督树结构,本文提出两种方法:基于期望最大化(expectation-maximization, EM)算法的方法和基于贝叶斯推断(bayesian inference)的方法。实验表明,无监督树结构更有利于抽取有效的翻译规则,从而取得了更好的翻译质量。同时,由于该结构不需要任何句法树库资源的支持,应用范围更广。 3、 提出一种基于谓词论元结构的翻译模型 句法结构仅仅表示了句子在句法层面的信息,却并没有体现句子中不同成分之间...
其他摘要In recent years, we have witnessed the rapid progress of statistical machine translation (SMT). In this process, due to the hierarchical attribute of natural language sentence itself, SMT always suffers from the problem of structural transformation between bilingual sentences. Thus, how to take advantage of the linguistic structural knowledge of sentences (such as syntactic structure, semantic structure, etc.) in a statistical framework has become an important and crucial issue in SMT research. In current SMT research, syntax-based translation models have becoming more and more mature. However, since the cross-lingual syntactic structure divergence presents a great challenge to syntax-based models and the syntactic structure cannot represent the semantic relation inside sentences, researchers begin to focus on semantics-based translation model. Under such research background, we devote ourselves to developing efficient translation models that better exploit richer linguistic structural informations into SMT framework to improve translation quality. The main contributions of this dissertation are summarized as follows: 1. Improved Tree-to-Tree Translation Model With the ability of using both source and target parsing trees, tree-to-tree model is the perfect translation model theoretically. However, it always suffers from unsatisfactory performance in practice. Based on our deep analysis, this is because tree-to-tree model is severely hampered by some rigid syntactic constraints: the both-side subtree constraint in rule extraction, the node constraint and exact matching constraint in decoding. Under these hard constraints, many useful translation rules are excluded, and the decoding space is greatly reduced, leading to a bad translation performance. In this thesis, we propose a modified tree-to-tree model, which adopts bilingual phrase and tree binarization to resolve the hard constraints of tree-to-tree model. Experiments show that the proposed modified tree-to-tree model can significantly improve the performance of tree-to-tree translation system, and outperform the state-of-the-art phrase-based system Moses. 2. Unsupervised Tree based Machine Translation Although the translation models using parsing trees have achieved a big progress, there always exist two major challenges in utilizing parsing trees: 1) For most language pairs, it is hard to get parsing trees due to the lack of syntactic resources for training; 2) Numerous parsing trees are not compa...
馆藏号XWLW2027
其他标识符201118014628069
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6589
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
翟飞飞. 基于语言结构知识的统计机器翻译方法研究[D]. 中国科学院自动化研究所. 中国科学院大学,2014.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20111801462806(1147KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[翟飞飞]的文章
百度学术
百度学术中相似的文章
[翟飞飞]的文章
必应学术
必应学术中相似的文章
[翟飞飞]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。