CASIA OpenIR  > 毕业生  > 硕士学位论文
基于网络的翻译知识自动获取方法研究与实现
其他题名Research and Implementation on Automatic Acquisition of Translation Knowledge via Web Text Mining
向露
学位类型工程硕士
导师宗成庆
2014-05-20
学位授予单位中国科学院大学
学位授予地点中国科学院自动化研究所
学位专业计算机技术
关键词统计机器翻译 可比语料 平行资源抽取 平行句对 平行片段 跨语言信息检索 Statistical Machine Translation Comparable Corpora Two-level Parallel Units Extraction Parallel Sentences Parallel Sub-sentential Fragments Cross-language Information Retrieval
摘要大规模双语平行语料库是很多自然语言处理任务中的重要资源,尤其在统计机器翻译系统中双语平行语料库的规模和质量直接决定了系统的性能。而目前双语平行语料库的建设却一直不尽人意,在规模、时效性和领域平衡性等各方面都还不能满足处理真实文本的需求。近年来,随着互联网技术的迅猛发展和普及,越来越多的信息以多语言形式在互联网上发布,网络本身就成为一个巨大的多语种语料库。因此,研究开发有效的方法从互联网上大量存在的可比语料中挖掘平行资源,无疑是解决双语平行语料库建设和翻译知识获取难题的有效途径。开展这项工作不仅具有重要的理论意义,而且具有较大的应用价值。 论文的主要工作和创新归纳如下: 1.提出了一个两级平行资源获取框架 在互联网上真实的可比语料中,不仅存在着双语平行句对,还大量存在着双语平行片段。而目前已有的工作都被限制于只抽取平行句对或者平行片段中的一种,导致可比数据没有被有效地利用。基于这种考虑,本文提出了一个两级平行资源获取框架来同时抽取平行句对和平行片段,该框架首先通过候选句对生成策略从大规模的双语可比语料中获取候选句对,然后再从获取到的候选句对中进行平行句对的判定和平行片段的抽取。实验表明,该框架能够充分挖掘出可比语料中存在的平行资源,有效缓解了双语平行语料获取的瓶颈问题。 2.研究提出了两种双语候选句对生成的新方法 直接对海量的可比数据进行平行资源的挖掘将面临巨大的搜索空间和庞大的计算量。为了减少搜索空间,降低计算复杂度,本文提出了两种候选句对生成方法。一种是基于篇章对齐的候选句对生成方法,首先进行篇章对齐,然后使用词过滤器获取其中翻译覆盖率大于给定阈值的句对作为候选句对。另外一种是基于跨语言检索的候选句对生成方法,该方法直接在句子级别进行候选句对选择。在跨语言检索框架下,为了获取更好的候选句对集合,本文还提出了两种查询扩展方法:在基于词汇的查询扩展策略中为了解决双语词典中的歧义性问题,本文提出了基于柱搜索的词义消歧算法,从而选出一组最好的目标端词汇序列构成查询语句;在基于短语的查询扩展策略中,本文提出了使用简化的翻译模型来对源端句子进行翻译的新思路。实验结果证明,使用本文提出的两种查询扩展方法能够显著提升候选句对的质量,为后续平行资源的抽取奠定了基础。 3.提出了一种面向可比语料的两步词对齐方法,并建立了双语平行句对和平行片段抽取的新方法 本文将双语平行句对的判定看作是一个二值分类的问题,并使用最大熵分类器对双语句对进行甄别。在分类过程中,分类器所使用的特征会严重影响分类性能,然而,目前已有的工作并没有对平行句对判断过程中所使用的特征进行全面深入的研究,这就导致分类结果性能不佳。本文对平行句对判定过程中可能使用到的特征进行了深入分析和实验验证,同时,在已有特征的基础上,还提出了三个有效且容易计算的特征,最终选出了一组有效的特征训练分类器。 针对平行片段的抽取,本文借鉴统计机器翻译系统获取双语短语的思想。首先对可比语料进行词对齐;然后...
其他摘要Large-scale bilingual parallel corpus is an important resource in many language processing tasks. Especially for statistical machine translation (SMT) system, the size and quality of the training data has a vital impact on its performance. However, the construction of bilingual parallel corpus has been unfulfilling which is far away to be used in real text processing, because of its limitation in size, domain and language pairs. In recent years, with the popularization and rapid development of the Internet, more and more information has been published in multiple languages which make the Internet itself a huge multilingual corpus. Therefore, this thesis is committed to the studies and explorations on the method of mining useful information from the large amount of available resources from the Internet, which is definitely an effective way to solve the problem of bilingual corpus construction and translation knowledge acquisition. Inspired by the above motivation, the main contributions of this thesis can be summarized as follows: 1.A framework to efficiently extract parallel units in two-level is proposed. There is a vast amout of bilingual comparable corpora on the Internet and it’s a big challenge to mine parallel resources from the huge comparable data. In reality, it is very common that the parallel sentential and sub-sentential fragments do coexist, both of which are useful resources for SMT. Unfortunately, the previous work is usually restricted to either extract sentential or sub-sentential fragments, which will lead lots of useful resources unexploited. According to this consideration, this paper proposes a two-level parallel text extraction framework which can extract parallel sentences and parallel sub-sentential fragments simultaneously. The first step of the framework is to adopt a certain strategy to generate candidate sentences from huge comparable corpora and then mine parallel sentences and sub-sentential fragments from the candidates. Such an integration framework can make the utmost of the comparable corpora and help to alleviate the lack of parallel data. 2.Under the framework, the strategies for candidate sentence generation are studied. Mining parallel text from comparable data directly will confront vast search space and huge computations which will make the process to be too slow to be applied in the pratical application. In order to solve the problem, the paper employs two strategies for candidate sentence generation to locate ...
馆藏号XWLW2074
其他标识符2011E8014661097
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/7702
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
向露. 基于网络的翻译知识自动获取方法研究与实现[D]. 中国科学院自动化研究所. 中国科学院大学,2014.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_2011E801466109(2149KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[向露]的文章
百度学术
百度学术中相似的文章
[向露]的文章
必应学术
必应学术中相似的文章
[向露]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。