CASIA OpenIR  > 毕业生  > 博士学位论文
融合源语言句法知识的统计机器翻译方法研究
其他题名Research on Methods of Integrating Source-side Syntactic Knowledge into Statistical Machine Translation
张家俊
学位类型工学博士
导师宗成庆
2011-05-18
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词句法知识 基于短语的统计翻译模型 短语重排序 基于语言学语法的统计翻译模型 模糊匹配 Syntactic Knowledge Phrase-based Smt Phrase Reordering Linguistically Syntax-based Smt Fuzzy Matching
摘要近年来,基于短语的统计机器翻译方法取得了快速进展,并获得了一定的应用。然而,该方法存在无法克服两种语言间的结构性差异,难以处理长距离短语重排序等本质问题。因此,研究如何融合源语言句法知识,建立更加鲁棒的高质量统计机器翻译模型,具有重要的理论意义和应用价值。 本论文针对在短语的翻译模型中如何融入更多深层次的句法知识以改善语言间的结构性差异,以及在语言学语法翻译模型中如何充分利用两端句法结构信息最大限度地解决语言间的结构性差异等问题,进行了深入研究。论文的主要工作和创新点归纳如下: 1、提出了适用于口语翻译的基于源语言句型的短语重排序方法 在挖掘与利用源语言句法知识方面,传统的句法分析技术很难适用于口语翻译。本文通过分析大量汉英口语翻译实例,观察到不同的句子类型具有不同的短语重排序特征。因此,本文提出了基于源语言句型的短语重排序方法。该方法以汉英翻译为例,首先利用基于支持向量机(SVM)的分类器将源语言句子划分为特殊疑问句、其他疑问句和非疑问句三种不同的句子类型。然后,针对不同的句子类型设计了不同的重排序模型。该方法改变了传统的重排序模型不考虑翻译句子的结构类型、一律按一种模式统一重排序的处理方法,有效减轻了汉英口语翻译中两种语言之间的结构性差异所造成的重排序困难。实验结果表明,基于源语言句型的短语重排序方法显著地改善了短语重排序性能,提高了基于短语的翻译系统的译文质量,并且可以与Moses中的词汇化短语重排序模型及基于最大熵的短语重排序模型等其他短语重排序模型实现互补。另外,基于源语言句型的短语重排序方法帮助本研究组在2008年和2009年连续两年取得国际口语翻译评测汉英任务第一名的优异成绩。 2、提出了有效融合源语言端句法规则的翻译框架 在融入传统句法知识改善短语重排序性能方面,一种非常流行的方法是设计源语言端的硬性规则或概率化规则对源语言句子进行重排序,以近似目标语言句子的语序。这种方法不仅十分依赖句法分析器的性能,容易在翻译前产生短语重排序错误,而且没有充分与解码器紧密结合,从而导致大量重排序错误无法在后续解码过程中得到纠正。针对这一问题,本文提出了一种有效融合源语言端句法调序规则的翻译框架。该框架的基本思想是:为了突出句法短语重排序的作用,并区别对待句法短语重排序与非句法短语重排序,将传统的短语重排序模型细分为句法短语重排序模型与非句法短语重排序模型。然后以括弧转录文法(BTG)的短语翻译模型为基础,将由源语言句法树中学到的硬性句法调序规则或概率化句法调序规则高效地融入句法短语重排序模型,以指导解码过程中的短语重排序。该框架突破了传统方法机械地利用源端句法规则调整源语言语序的做法,将句法规则作为一种特征巧妙地融合到翻译模型中。实验表明,该框架可显著地改善翻译性能,而且适用于大规模的实验环境。 3、提出了源语言端句法增强的串到树翻译模型 基于语言学语法的翻译模型直接利用语言学知识对翻译过程进行建模。实践证明,在基于两端句法的翻译模型中,要求对源端句法结构精确匹配的做法,并...
其他摘要In recent years, the phrase-based statistical machine translation (SMT) has made rapid progress and has obtained some applications. However, the method could not overcome the structural differences between two languages, and thus has many difficulities in translation such as long-distance phrase reordering. Therefore, it is theoretically important and of application value to research on how to effectively integrating source-side syntactic knowledge into a SMT model so as to establish a robust SMT system with higher translation quality. This thesis focuses on two research directions: one is to integrate more deep source-side syntax into the phrase-based SMT to improve sloving the structural differ-ences between the languages; the other is to make full use of both-side syntax based on linguistically syntax-based SMT. The main work and the contributions of this thesis are summarized as follows: 1. Sentence Type based Phrase Reordering Method in Spoken Language Translation In mining and using source-side syntax, traditional technology of syntactic analysis is not suitable for spoken language translation. Through a thorough analysis of examples in Chinese-English spoken language translation, we observe that different source sentence types correspond to different phrase reordering patterns. Therefore, this thesis proposes a source sentence type based phrase reordering method for spoken language transla-tion. The method uses Chinese-English translation as case study. First we use a support vector machine (SVM) based classifier to divide the source sentences into special ques-tion sentences, other question sentences and non-question sentences. For each sentence type, we design a spectific phrase reordering model. Our method changes the paradigm that applys a uniform phrase reordering model for all types of sentences and alleviates the reordering difficulties caused by structural differences between two languag-es. Experimental results show that, sentence type based reordering method significantly improves the phrase reordering performance, and improves the quality of translations of phrase-based translation systems. Furthermore, our phrase reordering method can be complementary with other reordering models, such as lexicalization-based phrase reor-dering model in Moses and maximum entropy based reordering model. Our method helps our research group ranks the top in 2008 and 2009 international evaluation on spoken language translation. 2. A Unified Framework for...
馆藏号XWLW1610
其他标识符200818014628073
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6324
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
张家俊. 融合源语言句法知识的统计机器翻译方法研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2011.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20081801462807(1216KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[张家俊]的文章
百度学术
百度学术中相似的文章
[张家俊]的文章
必应学术
必应学术中相似的文章
[张家俊]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。