CASIA OpenIR  > 毕业生  > 硕士学位论文
自动口语翻译系统中的译文生成方法的研究
其他题名Approach to Target Language Generation in Spoken Language Translation
曹文洁
学位类型工学硕士
导师徐波 ; 宗成庆
2004-06-01
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词口语翻译
摘要本论文介绍的是我们对基于中间转换格式(IF)的口语翻译系统中目标语 言生成方法的研究工作。论文一方面介绍了我们针对特定领域的基于IF汉语生 成的研究,另一方面介绍了我们对基于IF的口语翻译中具有领域和语言可移植 性生成理论和方法的研究。归纳起来,论文主要完成以下几项工作: 论文第一项工作是对汉语口语特点进行了分析,并研究实现了一个面向特 定领域的中文句子生成器。该生成器没有采用通常的微观规划和表层生成的两 步结构,而是采用一体化的结构。生成器分为两层:句子规划层和短语规划层。 生成方法主要采用的是模板的方法。不同于一般意义上的模板,这里的模板既 含有变量,也含有需要进一步处理的函数。生成器与基于特征的流水线结构的 生成器相比有更高的效率。同时,该生成器比一般的模板生成器灵活性更强。 论文第二项工作是对生成策略的研究。在口语翻译系统中,效率、灵活性 和鲁棒性是三个非常重要的方面。针对这些要求,我们采用了基于模板与基于 特征相结合的混合生成策略。对于一些固定的表达方式,我们采用带有变量的 模板方法进行生成以提高效率;而对于其它比较灵活的表达方式,我们采用基 于特征的生成方法以满足系统灵活性的要求。模板方法具有高效的特点,但是 不够灵活,而且领域可移植性较差。而基于特征的方法恰恰相反。二者的结合 使生成器兼顾了效率与灵活性。针对鲁棒性的要求,我们在微观规划和表层生 成部分都采取了措施。由于汉语对句子参与成分并没有象英语等其它语言那样 高的要求,在汉语句子生成中,我们取消对句子参与成分的约束,即允许生成 不完整的句子。对英文生成来说,我们同样尽可能放松对句子参与成分的限制。 此外,根据领域知识,我们还对某些句子成分设置了缺省值。这些措施都使得 生成的鲁棒性和效果大大改善。 第三个工作是对微观规划方法的研究。我们微观规划是根据IF的特点设计 的,主要有三个子任务:句子规划、短语规划和词汇选择,最终规划的结果得 到一种适合于句子生成的语义句法特征结构。本方法具有较高的效率,词汇选 择的引入也改善了生成的准确性和自然度。句子规划根据IF表达式和领域知识 确定句子类型、谓语动词和句子的谓词一论元框架,以及语气、时态、情态等 信息。短语规划的功能是根据IF的参数列表获得句子的浅层短语结构信息。IF 在参数列表中对浅层信息具有很好的形式化描述,非常有利于短语的生成。我 们
其他摘要This paper investigates the methods of target language generation in Interchange-Format (IF) based spoken language translation system. On the one hand, the paper introduces the researches on Chinese generation in specific domain. On the other hand, it makes researches on the generation theories and methods that improve the portability and domain portability of a language generator. The research work described in this thesis includes the following parks: First, analysis on the characteristics of the spoken Chinese and research on the methods of domain specific Chinese generation. This generation method adopts an integrative architecture, and is divided into two layers: sentence layer and phrase layer. The template-based method is employed in the Chinese generator. The variables and functions that need further processare imported into the templates. Such method achieves more efficiency than feature based pipeline-structure generator. In addition, it is more flexible than common template-based generation. Second, investigation of the generation strategies. The flexibility, efficiency and robustness are three important factors in the spoken language translation systems. Towards these requirements, our generator employs a hybrid approach in combination of template-based and feature-based generation methods. For those fixed expressions the templates containing variables are used to improve the efficiency. For the other flexible expressions, the feature-based generation method is employed to fulfill the requirement of flexibility. The template method is efficient, but it is inflexible and has poor domain portability. The feature-based method is of the advantages of generality and flexibility, but it is inefficient. Therefore, the combination of the two methods makes the generator have the better tradeoff between the efficiency and the flexibility. Regarding the requirement of robustness, we take measures both in micro-planning and surface generation. Since the Chinese doesn't have much requirement for the participant members of a sentence, the restrictions on the participant members are ignored in the Chinese sentence generation. For English generation, we also loose the limitations on the participant members of a sentence. Furthermore, default values are given for some participant members under the permits of the domain knowledge. Third, probing into the approach to the micro-planning. The micro-planning module is designed according to the characteristics of IF. In our system, there are three sub-tasks for micro planning: sentence planning, phrase planning and lexical selection. The ultimate result for micro-planning is a kind of syntactic and semantic structure that is suitable for sentence generation. The sentence type is determined in the sentence planning according to IF and the domain knowledge, and the predicate-argument frame of the sentence, including the main v
馆藏号XWLW776
其他标识符776
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6755
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
曹文洁. 自动口语翻译系统中的译文生成方法的研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2004.
条目包含的文件
条目无相关文件。
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[曹文洁]的文章
百度学术
百度学术中相似的文章
[曹文洁]的文章
必应学术
必应学术中相似的文章
[曹文洁]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。