CASIA OpenIR  > 毕业生  > 博士学位论文
基于汉英双语语料的命名实体抽取和翻译
其他题名Chinese-English Named Entity Extraction and Translation Based on Bilingual Corpus
庞薇
学位类型工学博士
导师徐波
2008-05-23
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词命名实体翻译 命名实体对抽取 音译 Named Entity Translation Named Entity Extraction Transliteration
摘要命名实体的翻译和抽取在许多自然语言处理领域的任务中有重要作用,近年来受到了越来越多的关注。尤其在机器翻译领域,命名实体的翻译更是起到了至关重要的作用。本文的研究重点定位于如何借鉴各种机器翻译的方法并结合命名实体自身的特点,对命名实体进行翻译。本文设计了一个中英文命名实体抽取和翻译的整体框架,将翻译和抽取有机地结合在一起,并针对各种命名实体的特点和翻译难点给出了不同的翻译方法。我们用大量的实验来探讨如何通过更多知识和方法更准确的翻译命名实体,从而更好地为统计机器翻译服务。论文的主要内容归纳如下: (1)提出了一种基于多特征分层次的从双语语料库中抽取命名实体对的方法。 双语抽取命名实体对可以用于训练,还可以直接提取命名实体的翻译,在命名实体翻译中占有很重要的地位。针对命名实体的特点,我们对数词和人名、地名、机构名等专有名词采用不同的抽取方法。对于数词和与数词相关短语的对齐和抽取,我们采用先变量替换,再用统计模型从双语语料中抽取含有数词变量短语对的方法。这样可以避免数词数量大所引起的数据稀疏,也可以更全面的得到数词相关短语,并为数词的翻译提供训练语料。对于需要用到音译模型的人名地名和机构名的对齐和抽取,本文首先通过不同的打分策略得到短命名实体,再合并短命名实体生成长命名实体对。这种分别打分的方法可以避免音译意译混合打分引起的区分度降低,同时长命名实体的合并也可以完成音译意译混合命名实体的提取。 (2)提出了一种规则和统计相结合的数词和与数词相关短语的翻译方法。 在统计机器翻译中数词和含有数词的短语数量大并且它们的处理与一般意义上的单词处理有很大差别。本文按照英文数词的表现形式给出几种数词的翻译规则,通过上下文的统计信息确定数词的翻译规则和与数词相关短语的翻译。这种方法将双语语料的统计信息和数词翻译规则有效的结合达到了较好的数词及数词相关短语的翻译结果。 (3)提出了一种词典和统计相结合的人名翻译方法。 在命名实体翻译尤其是新闻领域的翻译里,需要音译的人名比例很高,而音译词通过一般意义的统计机器翻译的方法是很难翻译的。为了解决机器翻译中人名的翻译问题,本文通过输入语料与词典的相似度计算,充分利用词典等外部信息,并通过多模型融合的方式改进音译模型。外部信息的充分利用和音译模型的改进都对人名翻译结果起到了积极的作用。 (4)提出了一种先调序后翻译的机构名翻译方法。 由于传统的机器翻译系统不是专门针对机构名翻译而设计的,所以没有充分利用机构名在结构上的特性。本文利用汉英机构名在结构上的特性,设计了一个针对机构名的先调序后翻译的汉英翻译系统。本文通过粗颗粒度(词性)和细颗粒度(词形)两种层次的模板混合组成调序模型,然后用基于短语的翻译模型对调序后机构名翻译。这种方法把机构名的调序作为一个单独的模块训练模型,在调序方面取得了较好的效果,同时调序后的训练语料可以提供质量更好的短语集,从而提高了机构名的翻译结果。 综上所述,本论文面向命名实体中的各方面做了大量的研究和实验工作,有效地改进了各个命名实体翻译模块的性能,为自然语言处理领域中多种任务的完成奠定了良好的基础。
其他摘要Named Entity (NE) translation and extraction is very important in natural language processing, especially in machine translation. This thesis focuses on translating named entity with its characteristics. Referring to different methods of machine translation, we designed a framework for Chinese and English NE translation, which combines transla-tion and extraction together, and proposes different translation methods according to dif-ferent characteristics of named entities. Extensive experiments have been made to ana-lyze the pros and cons of different methods. The main contributions are summarized as follows: 1. We proposed a multi-feature and multi-layer based method of extracting Chi-nese-English named entities from bilingual comparable corpora. 2. We proposed a translation method for numerals and numerical phrases, by com-bining rules and statistical model. 3. We proposed a translation method for person names, by combining dictionary and statistic models. 4. We proposed a translation method for organization names, by reordering them first and translating subsequently. In a word, this thesis includes lots of research and experiment effort in NE transla-tion. It improves the performance of NE translation effectively, and established a good basis for the future research on the new translation methods.
馆藏号XWLW1266
其他标识符200418014628085
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6068
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
庞薇. 基于汉英双语语料的命名实体抽取和翻译[D]. 中国科学院自动化研究所. 中国科学院研究生院,2008.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20041801462808(1238KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[庞薇]的文章
百度学术
百度学术中相似的文章
[庞薇]的文章
必应学术
必应学术中相似的文章
[庞薇]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。