CASIA OpenIR  > 毕业生  > 博士学位论文
交互式口语翻译方法及相关问题研究
其他题名Research on Method and Related Issues of Spoken Language Translation with Human-Machine Interaction
刘鹏
学位类型工学博士
导师宗成庆
2010-11-24
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词口语翻译 交互式翻译 未登录词 未登录短语 数据选择方法 Spoken Language Translation Interactive Translation Out-of-vocabulary Unknown Phrase Data Selection Method
摘要随着科技的进步、社会的发展、全球化进程的加快和国际交流的日益频繁,消除不同语言的障碍也显得愈加重要。机器翻译作为解决这一问题的有效手段,受到了研究者们的普遍重视,近几年来得到了快速发展。 机器翻译就是利用计算机实现从一种语言到另一种语言自动转换的技术。目前,基于统计的翻译方法是研究的热点。机器翻译经过几十年的发展已经取得了巨大的进步,但是仍然有很多理论问题和实现技术问题没有得到解决,全自动高质量的翻译仍然难以获得。本论文就是面向口语翻译中未登录词和未登录短语的翻译问题,以及统计翻译中的数据选择问题开展相关研究。这项研究具有重要的理论意义和应用价值。 论文的主要工作和创新归纳如下: (1)提出并实现了针对未登录词的交互式翻译方法。未登录词是口语中普遍存在的现象,通常是句子中的关键信息点,无法正确翻译的话会对系统的翻译性能造成很大的影响。但是由于数据稀疏问题,系统难以自动解决。因此,我们提出了针对未登录词的交互式翻译方法。该方法首先通过人机交互,确定未登录词的边界;其次利用分类器判断未登录词的类别;然后调用对应翻译模块翻译未登录词,生成候选翻译;最后由用户判断未登录词的候选翻译是否正确。经人机交互后成功翻译的未登录词将被保存进记忆库,再次遇到相同的问题时系统可以自动处理。由于系统使用者为机器翻译系统提供了未登录词的知识,因而该方法有效提高了译文的质量。 (2)提出并实现了针对未登录短语的交互式翻译方法。由于基于短语的统计翻译系统采用短语精确匹配的策略,大量短语由于得不到精确匹配成为了未登录短语,同时短语表中很多语义相同的相似短语得不到充分地利用。我们提出了针对未登录短语的交互式翻译方法。该方法首先采用短语模糊匹配的方法为未登录短语在短语表中查找相似短语,并生成扩展句子;然后利用组合分类器判断哪些句子的翻译质量得到了提高;最后采用基于有限状态自动机的对话管理模型进行人机交互,由用户选择语义保持不变的扩展句子。由于该方法充分利用了短语表中的相似短语,达到了提高翻译系统性能的目的。 (3)提出并实现了面向统计翻译系统参数训练的数据选择方法。统计翻译系统的性能严重依赖于语料库的数量和质量。以往的工作集中于如何收集更多的训练语料,而我们的研究关注于如何提高语料的质量。在训练集语料上,我们采用基于长度比值和翻译比率的策略过滤噪音策略,然后采用基于未见短语覆盖度的方法选择训练数据。在开发集语料上,我们提出了基于短语覆盖度和基于句子结构覆盖度的数据选择方法。采用我们的方法,可以提取出信息量更高的句对,从而在不降低系统性能的基础上,减少了训练集语料和开发集语料的规模。 综上所述,本论文在口语翻译中的未登录词和未登录短语翻译问题,以及统计翻译系统的数据选择问题上进行了深入研究,提出的交互式翻译方法有效解决了未登录词和未登录短语问题,数据选择方法可以显著减少训练集语料和开发集语料的规模,提高了口语翻译系统的性能,在口语翻译系统的实用化方面进行了有益的探索。
其他摘要With the development of technology and society, the process of globalization speeds up and the international exchange is more frequent than before. It is more important to break the language barrier between different countries and regions. Machine translation, as an effective solution to solve this problem, has been paid more attentions from researchers and gets rapid development in the recent years. Machine translation is a technology which automatically converts the sentence from one language to another language using the computer. Currently, the statistical machine translation (SMT) method is the focus of research. The machine translation method has got great progress after several decades of development, but there are still many theoreti-cal problems and technical problems remained to be solved. The full automatic high quality translation (FAHQT) is still difficult to obtain. In this thesis, we focus on the problems of translation of out-of-vocabulary (OOV) words and unknown phrases in spo-ken language translation (SLT), and the data selection methods for statistical machine translation. The study has important theoretical significance and application value. The main work and contributions in this thesis are summarized as follows: (1) We propose and implement the interactive translation method for OOV words. OOV words are common phenomena in spoken language, and often are the key points in a sentence. Wrong translation of the OOV words will greatly affect the performance of the translation system. But this problem is hard to be solved by the machine automatically because of the data sparseness problem. So we propose the interactive translation method for OOV words. First, we detect the boundary of OOV word by interaction with human. Second, we use the classifier to determine the category of the OOV word. Third, we translate the OOV word using the corresponding translation module to generate the candidate translations. At last, the human decide which candidate translation is correct. The successful translation of OOV word will be saved to memory base, and the system could deal with the same problem automatically next time. The quality of translation is improved for the knowledge of OOV word provided by human. (2) We propose and implement the interactive translation method for unknown phrases. For the phrase-based SMT system use the exactly match policy in decoder, many phrases couldn’t find the exactly match in the phrase table and become unknown p...
馆藏号XWLW1426
其他标识符200518014628096
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6305
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
刘鹏. 交互式口语翻译方法及相关问题研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2010.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20051801462809(1501KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[刘鹏]的文章
百度学术
百度学术中相似的文章
[刘鹏]的文章
必应学术
必应学术中相似的文章
[刘鹏]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。