CASIA OpenIR  > 毕业生  > 博士学位论文
限定领域内汉英口语的统计翻译方法研究
其他题名Research on the Statistical Approach of Chinese-English Spoken-Language Translation in a Limited-Domain
程葳
学位类型工学博士
导师徐波 ; 赵军
2003-08-27
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词口语翻译 统计机器翻译 语块 基于语块的处理 自动评论 Spoken-language Translation Statistical Machine Translation Chunk Chunk-based Processing And Automatic Evaluation
摘要机器翻译是自然语言处理的重要应用领域。口语翻译作为机器翻译的一 个新兴分支,具有重要的理论意义和实用价值,正受到越来越多的关注。本 文以基于统计的翻译方法为研究主线,提出和建立了一整套限定领域内汉英 口语的统计翻译框架,并就其中的一些关键问题进行了研究,主要成果和创 新点包括: 1.建立了限定领域内汉英口语统计翻译的原型系统,并就统计机器翻译 在汉英口语翻译中应用的可行性和主要不足进行了探讨。本文在对统计机器 翻译理论深入分析的基础上,将经典的基于单词的统计翻译方法应用到汉英 两种差别较大的语言之间。在旅馆预订领域,实现了一个汉英口语翻译的原 型系统。然后通过构建真实的口语语料库,对系统性能进行了一系列测试。 实验结果表明,基于统计的方法具有一定的鲁棒性和泛化能力,能够较好地 处理口语中不规范的语言现象和语音识别错误。不过由于其分析单元的粒度 较小和缺乏语言学知识作引导,因此翻译精度还有待提高。 2.提出了双语语块的基本概念。本论文在对基于语块的处理方法进行深 入分析的基础上,针对汉英口语的特点和机器翻译的需要,提出了双语相关 的语块描述框架——双语语块,并从结构、句法和语义对整性等多角度对其 进行定义。然后,论文深入研究了双语语块的识别和语料库加工等问题,先 后提出基于规则的双语语块语料库加工策略和统计与规则相结合的双语语块 自动识别方法,为建立基于双语语块的:大规模口语语料库提供了可能。 3.对基于单词的统计机器翻译进行改进,建立基于双语语块的口语统计 翻译系统。本论文针对原有统讨‘机器翻译的主要不足,将双语语块概念引入 到统计翻译方法当中,建立了基于双语语块的汉英口语统计翻译框架,并将 其与基于单词的系统进行了比较。实验表明,由于双语语块概念本身包含语 法信息,因此,基于双语语块的汉英口语翻译系统不仅有效地扩大分析单元 的粒度,而且将先验的语言学知识和统计翻译方法相融合,从而提高了系统的翻译性能。 4.提出了面向口语统计翻译的译文质量自动评价新方法。输出译文质量 的自动评价对统计翻译方法的研究具有十分重要的意义。但现有的评价方法 主要是针对书面语翻译,并没有考虑到口语翻译的特殊要求。因此,本论文 提出了一种面向口语和统计翻译方法的新型的自动评价方法,通过定义信息 段、标注权重和设计多种匹配策略等方法,使自动评价结果与人工打分更为 接近,同时也提高了
其他摘要Machine translation is the important part of natural language processing。As its new branch, spoken-language translation is of great theoretical and practical significance. Therefore,this thesis presents a new Chinese。English spoken-language translation approach in the limited。domain based on the statistical machine translation(SMT))。The main contributions are summarized as follows: 1.A preliminary translation system from Chinese to English is built in the limited-domain.After reviewing the principle of SMT, the thesis puts forward a Chinese-English translation system which employs the word-based statistical Approach. Its performance is tested on a limited。domain spoken-language task: hotel reservation。Two bilingual corpus are available for the task,which exhibit some typical phenomena of spontaneous speech。The experimental analysis shows that SMT is promising in the spoken-language translation。However its translation quality needs to be improved。 2.The conception of co-chunk is defined。Upon the analysis of the chunk。based processing,the thesis presents a definition of the CO-chunk,according to the characteristics of both the spoken-language and the SMT。The features of the co-chunks are also summarized。Based on these definition and features,two methods are proposed for the CO-chunking。One is a rule。based method to the bilingual corpus。Another is the automatic algorithm,which uses the rules in the statistical method。Therefore,it is possible to get a chunk-aligned Chinese-English corpus. 3-The statistical spoken-language translation system is put forward based on co-chunks-According to the feasibility and some problems of the word-based SMT, the thesis introduces co-chunks into the spoken。 1anguage translation system。A co-chunk-based translation system is built。And a series of experiments are implemented to compare the co-chunk-based translation system with the word。based translation system。The results show that the proposed definition and the processing methods of co-chunks can lead to great improvement to the quality of the Chinese-English spoken-language translation。 4.The evaluation problem of spoken-language translation system is studied。 The automatic evaluation of output quality is very important for the SMT research。However,most work of it is for written language,which is quite different from spoken。1anguage。Therefore,the thesis provides a new automatic evaluation algorithm for spoken-language translation system。It defines the block according to the word position,tags the weight of both blocks and words,and designs several matching methods。All these make the automatic evaluation system process more different outputs。And the results are close to the score of human。Several examinations are given in the thesis。They show the algorithm has a good sensitivity for different output quality and its evaluation results are almost as same as the human's int
馆藏号XWLW849
其他标识符849
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/5785
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
程葳. 限定领域内汉英口语的统计翻译方法研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2003.
条目包含的文件
条目无相关文件。
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[程葳]的文章
百度学术
百度学术中相似的文章
[程葳]的文章
必应学术
必应学术中相似的文章
[程葳]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。