CASIA OpenIR  > 毕业生  > 硕士学位论文
大词汇量连续语音理解系统的研究与实现
王刚
1995-06-01
学位类型工学硕士
中文摘要汉语连续语音人机对话系统的研究和开发随着语音识别及理解方面基础性 研究的进展日益重要。要构造一个基于大词汇量连续语音识别的人机对话系统, 我们认为要在以下方面取得进展,这些改进同时也必须考虑到系统的实时性要求 :1)连续语音识别算法的优化;2)自然语言的理解;3)语音界面与其他多媒体 界面的结合。 . 本文将结合我们开发的一个基于WINDOWS3.1操作系统的大词汇量、连续语音 驱动的、人机对话式的多媒体信息提取系统—V0TIRS,介绍我们新近所做的工 作。这些工作主要分为声学模型的改进、语言处理的研究和系统实现三个方面。 根据汉语语音的特点和我们对声学模型的研究结果,我们提出了基于上下文 相关的声学模型建模方案。这种细化大大地提高了HMM的描述能力,使识别率 大幅提高。在相同的语言复杂度下,误识率降低了50%左右。根据细化的模型, 我们提出声、韵母使用不同的HMM拓扑结构, 这为进一步提高HMM的区分能力 作出了贡献。同时结合HMM的建模策略,我们对不同的训练方案作了对比,提出 了一个较优的针对数据类型的训练算法,使得在同样的训练开销的情况下,系统 的表现尽量最优。 在语言处理方法及其与语音识别结合策略的研究中,我们试图以一种统一的 观点对待连续语音理解的问题—即语言模型驱动的语音处理。根据这种想法, 我们建立了一套语言处理及其与语音识别相结合的方法。我们不但可以方便地创 建系统的语言模型,同时这些机制和工具为系统产生“理解”式的响应提供了可 能。这种响应不仅包括一般意义上的信息显示,还包括交互式的、基于语义知识 和上下文信息的人机对话。特别的,它们使系统可以动态地变化FSN以减少识别 的困惑度,从而提高系统的性能。最后,基于这种统一的观点,我们将语言的统 计信息和FSN相结合,即考虑语言符号节点间的跳转概率。在我们的框架下,可 以很容易的用文法归约的方法(甚至直接利用生成FSN的算法)训练这些概率。 它不但克服了规则无法完全描述语句的缺陷,成为语言知识的重要补充,还减少 了识别的开销,提高识别的精度。 我们建立了系统在WINDOWS下的多媒体风格的实现框架, 完成了系统的图 形界面,初步建立了系统的图象、文字、语音响应资源和控制机制。我们还自行 开发了TMS320 DSP板的“伪设备管理程序”,解决了目前语音识别界普遍使用的 TMS320 DSP板与WIND0WS接口的问题,使我们关于TMS320 DSP板的工作 在WINDOWS下得以保护
关键词大词汇量 连续语音识别 自然语言处理 多媒体 人机对话系统
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/7117
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
王刚. 大词汇量连续语音理解系统的研究与实现[D]. 中国科学院自动化研究所. 中国科学院自动化研究所,1995.
条目包含的文件
条目无相关文件。
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[王刚]的文章
百度学术
百度学术中相似的文章
[王刚]的文章
必应学术
必应学术中相似的文章
[王刚]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。