CASIA OpenIR  > 毕业生  > 硕士学位论文
大词汇量连续语音理解系统的研究与实现
王刚
Subtype工学硕士
Thesis Advisor黄泰翼
1995-06-01
Degree Grantor中国科学院自动化研究所
Place of Conferral中国科学院自动化研究所
Degree Discipline模式识别与智能系统
Keyword大词汇量 连续语音识别 自然语言处理 多媒体 人机对话系统
Abstract汉语连续语音人机对话系统的研究和开发随着语音识别及理解方面基础性 研究的进展日益重要。要构造一个基于大词汇量连续语音识别的人机对话系统, 我们认为要在以下方面取得进展,这些改进同时也必须考虑到系统的实时性要求 :1)连续语音识别算法的优化;2)自然语言的理解;3)语音界面与其他多媒体 界面的结合。 . 本文将结合我们开发的一个基于WINDOWS3.1操作系统的大词汇量、连续语音 驱动的、人机对话式的多媒体信息提取系统—V0TIRS,介绍我们新近所做的工 作。这些工作主要分为声学模型的改进、语言处理的研究和系统实现三个方面。 根据汉语语音的特点和我们对声学模型的研究结果,我们提出了基于上下文 相关的声学模型建模方案。这种细化大大地提高了HMM的描述能力,使识别率 大幅提高。在相同的语言复杂度下,误识率降低了50%左右。根据细化的模型, 我们提出声、韵母使用不同的HMM拓扑结构, 这为进一步提高HMM的区分能力 作出了贡献。同时结合HMM的建模策略,我们对不同的训练方案作了对比,提出 了一个较优的针对数据类型的训练算法,使得在同样的训练开销的情况下,系统 的表现尽量最优。 在语言处理方法及其与语音识别结合策略的研究中,我们试图以一种统一的 观点对待连续语音理解的问题—即语言模型驱动的语音处理。根据这种想法, 我们建立了一套语言处理及其与语音识别相结合的方法。我们不但可以方便地创 建系统的语言模型,同时这些机制和工具为系统产生“理解”式的响应提供了可 能。这种响应不仅包括一般意义上的信息显示,还包括交互式的、基于语义知识 和上下文信息的人机对话。特别的,它们使系统可以动态地变化FSN以减少识别 的困惑度,从而提高系统的性能。最后,基于这种统一的观点,我们将语言的统 计信息和FSN相结合,即考虑语言符号节点间的跳转概率。在我们的框架下,可 以很容易的用文法归约的方法(甚至直接利用生成FSN的算法)训练这些概率。 它不但克服了规则无法完全描述语句的缺陷,成为语言知识的重要补充,还减少 了识别的开销,提高识别的精度。 我们建立了系统在WINDOWS下的多媒体风格的实现框架, 完成了系统的图 形界面,初步建立了系统的图象、文字、语音响应资源和控制机制。我们还自行 开发了TMS320 DSP板的“伪设备管理程序”,解决了目前语音识别界普遍使用的 TMS320 DSP板与WIND0WS接口的问题,使我们关于TMS320 DSP板的工作 在WINDOWS下得以保护
shelfnumXWLW343
Other Identifier343
Language中文
Document Type学位论文
Identifierhttp://ir.ia.ac.cn/handle/173211/7117
Collection毕业生_硕士学位论文
Recommended Citation
GB/T 7714
王刚. 大词汇量连续语音理解系统的研究与实现[D]. 中国科学院自动化研究所. 中国科学院自动化研究所,1995.
Files in This Item:
There are no files associated with this item.
Related Services
Recommend this item
Bookmark
Usage statistics
Export to Endnote
Google Scholar
Similar articles in Google Scholar
[王刚]'s Articles
Baidu academic
Similar articles in Baidu academic
[王刚]'s Articles
Bing Scholar
Similar articles in Bing Scholar
[王刚]'s Articles
Terms of Use
No data!
Social Bookmark/Share
All comments (0)
No comment.
 

Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.