CASIA OpenIR  > 毕业生  > 硕士学位论文
面向语音识别的语言模型研究
叶壮
Subtype工学硕士
Thesis Advisor黄泰翼
1996-07-01
Degree Grantor中国科学院自动化研究所
Place of Conferral中国科学院自动化研究所
Degree Discipline模式识别与智能系统
Keyword语音识别 语言模型 复杂度 词的类属 分类 模拟退火方法 N-gram模型
Abstract本论文主要研究和探讨了面向语音识别的语言模型的理 论, 建立了两种语言模型, 并且对基于词类的语言模型着重 进行了分析, 在词的自动分类方法上作出比较深入的实验尝 试。 第一章是前言, 介绍了语音识别技术的历史和发展以及 为什么要在语音识别系统中引入语言模型的原因; 给出了应 用于语音识别的语言模型的系统框图。 此外, 还从信息论的 角度说明语言模型能够降低语音识别的识别难度的内在意 义, 阐述了语言的熵、 复杂度和互信息这几个概念。 第二章对语言模型作了比较全面而系统的论述。 首先比 较了形式语言模型和统计语言模型的区别及利弊; 然后着重 分析介绍Ⅳ一gram语言模型, 阐述了这种语言模型提出的基本- 思想, 说明它的数学意义和解释,指出了其所存在的问题; 接 着讨论了基于HMM的语言模型, 并在此基础上引出了对插值 的语言模型的研究。 这一章我们还对譬如基于判决树结构的 模型等其他几种语言模型进行了简要介绍。 第三章建立了两种语言模型。我们先介绍了建模的大规 模语料库的选取, 说明这种选择的原因; 其次着重阐述了一 种基于音节的Bigram语言模型的建立,我们说明了建模过程中 各种数据表的生成和汉字到拼音音节的转换机制, 并解释了 整个建模的实际过程; 另外, 还简明扼要地介绍另一种基于 汉字的Bigram语言模型的建立过程。 第四章重点分析了基于词类的语言模型。我们从N一gram 语言模型的缺点(数据稀疏)入手, 引出了N一class语言模型, 对这种模型的基本思想和数学意义作出了阐述, 并且讨论了 几种等价类的划分方法; 接着研究了一种基于Decision-directed Learning思想的词的分类方法, 对这种方法进行了实验尝试; 然后我们较深入地探讨了将模拟退火的算法用于词的自动分 类,介绍了这种算法的基本思想和将其应用于词的自动分类 时的具体实现技术, 对这种分类方法进行了实验研究,给出 了部分实验结果.最后,还讨论其他的词的分类方法。 第五章中, 主要介绍一种汉字拼音转换系统的初步实 现。我们扼要地说明系统的基本思想和实现中的问题,在此 基础上提出了今后进行完善的思想. 最后一章是结束语, 总结了在研究过程中遇到的问题和 得到的经验, 介绍了语言模型研究目前的困难, 并提出了对 今后研究的一些建议.
shelfnumXWLW373
Other Identifier373
Language中文
Document Type学位论文
Identifierhttp://ir.ia.ac.cn/handle/173211/7142
Collection毕业生_硕士学位论文
Recommended Citation
GB/T 7714
叶壮. 面向语音识别的语言模型研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所,1996.
Files in This Item:
There are no files associated with this item.
Related Services
Recommend this item
Bookmark
Usage statistics
Export to Endnote
Google Scholar
Similar articles in Google Scholar
[叶壮]'s Articles
Baidu academic
Similar articles in Baidu academic
[叶壮]'s Articles
Bing Scholar
Similar articles in Bing Scholar
[叶壮]'s Articles
Terms of Use
No data!
Social Bookmark/Share
All comments (0)
No comment.
 

Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.