CASIA OpenIR  > 毕业生  > 博士学位论文
基于短语与句法结合的统计机器翻译的研究
其他题名Research on Statistical Machine Translation Based on Phrase and Syntax
杨振东
学位类型工学博士
导师徐波
2008-05-23
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词统计机器翻译 串到树对齐模板 重排序 翻译模型 分层短语 Statistical Machine Translation String-to Tree Alignment Template Reordering Translation Model Hierarchical Phrases
摘要1.提出了一种基于双向裁剪的翻译模型。 翻译模型是统计机器翻译的核心,它直接影响着翻译质量。在基于词的基准统计翻译系统中,本文提出利用源语言与目标语言双向翻译概率进行平滑训练,得到最终的基于词的翻译模型。本文提出的模型有助于消除单向IBM翻译模型训练中噪声的影响,在实验中BLEU得分提高了0.009。 2.提出了一种“空扩展”柱搜索算法。 在基于短语的统计翻译中,由于语言知识的差异,中文翻译成英文时,某些目标语言词需要被补充,这些出现频率很高且在IBM翻译模型中对空的词称为Fzerowords,对应于Fzerowords的路径扩展称为“空扩展”,论文解码时采用了“空扩展”柱搜索算法,这种搜索算法使Fzerowords修正了翻译结果,实验中使得翻译结果的BLEU得分提高了0.01以上。 3.提出了一种基于多特征融合的翻译模型训练方法,并提出通过提取短语模板对短语进行泛化,解决数据稀疏与重排序问题。 论文提出利用四种特征融合训练翻译模型,并与其它模型以log-linear形式结合,通过最小错误率训练特征系数;为了解决翻译中的重排序与数据稀疏问题,论文提出通过提取包含命名实体的N类模板与非命名实体的X类模板,对原始的短语进行泛化,部分的解决了短语间的重排序问题。 4.提出了基于串到树对齐模板的翻译模型,通过提取三类串到树对齐模板来解决翻译中源语言词到目标语言词的转换及重排序问题。
其他摘要1. Propose a bidirectionally smoothing word-based translation model. It is known to all, translation model is the key technology of machine translation. In the word-based benchmark SMT system, the thesis proposes a word-based translation model Smoothed by the bidirectionalltranslation probability of source and target sides, the translation model has an effect on lowering the noise during the IBM translation model’s training. Comparing with the initial word-based model, it makes the the BLEU of the result increase about 0.009 in experiments. 2. Propose a “null-expanding” beam search algorithm. In phrase-based statistical translation, because the different express habits, some tar-get words which appear frequently and have zero fertility in IBM Model, need be com-plemented. We call them F-zerowords. The path expanding corresponding to these words is called “null-expanding”. The thesis proposes a “null-expanding” beam search algo-rithm , it makes the F-zerowords modify the output and gains a BLEU increases of at least 0.01. Moreover, the thesis traces back the result by searching through the final sev-eral stacks not the final one stack which traditional method adopted, this also makes the translation result better. 3. Propose a multifeature-based translation model training and solve the data spare-ness and reordering problem by extracting phrase-template. The thesis proposes using four features to train translation model that can offset the shortcoming of each feature. The features are combined by a log-linear form ,and the factors are trained by a minimum error training procedure. The thesis proposes extracting N_template which corresponds to nane entity phrase and X_template which corresponds to not nane entity phrase to deal with data sparseness and distortion problem. 4. Propose a string-to-tree alignment template-based translation model, propose solv-ing the translation and reordering problems through extracting tree type of string –to-tree alignment template.
馆藏号XWLW1268
其他标识符200318014603039
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6069
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
杨振东. 基于短语与句法结合的统计机器翻译的研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2008.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20031801460303(2151KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[杨振东]的文章
百度学术
百度学术中相似的文章
[杨振东]的文章
必应学术
必应学术中相似的文章
[杨振东]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。