大词汇量连续语音理解系统的研究与实现

CASIA OpenIR > 毕业生 > 硕士学位论文

	大词汇量连续语音理解系统的研究与实现
	王刚
	1995-06-01
学位类型	工学硕士
中文摘要	汉语连续语音人机对话系统的研究和开发随着语音识别及理解方面基础性研究的进展日益重要。要构造一个基于大词汇量连续语音识别的人机对话系统，我们认为要在以下方面取得进展，这些改进同时也必须考虑到系统的实时性要求：1)连续语音识别算法的优化；2)自然语言的理解；3)语音界面与其他多媒体界面的结合。．本文将结合我们开发的一个基于WINDOWS3.1操作系统的大词汇量、连续语音驱动的、人机对话式的多媒体信息提取系统—V0TIRS，介绍我们新近所做的工作。这些工作主要分为声学模型的改进、语言处理的研究和系统实现三个方面。根据汉语语音的特点和我们对声学模型的研究结果，我们提出了基于上下文相关的声学模型建模方案。这种细化大大地提高了HMM的描述能力，使识别率大幅提高。在相同的语言复杂度下，误识率降低了50％左右。根据细化的模型，我们提出声、韵母使用不同的HMM拓扑结构，这为进一步提高HMM的区分能力作出了贡献。同时结合HMM的建模策略，我们对不同的训练方案作了对比，提出了一个较优的针对数据类型的训练算法，使得在同样的训练开销的情况下，系统的表现尽量最优。在语言处理方法及其与语音识别结合策略的研究中，我们试图以一种统一的观点对待连续语音理解的问题—即语言模型驱动的语音处理。根据这种想法，我们建立了一套语言处理及其与语音识别相结合的方法。我们不但可以方便地创建系统的语言模型，同时这些机制和工具为系统产生“理解”式的响应提供了可能。这种响应不仅包括一般意义上的信息显示，还包括交互式的、基于语义知识和上下文信息的人机对话。特别的，它们使系统可以动态地变化FSN以减少识别的困惑度，从而提高系统的性能。最后，基于这种统一的观点，我们将语言的统计信息和FSN相结合，即考虑语言符号节点间的跳转概率。在我们的框架下，可以很容易的用文法归约的方法(甚至直接利用生成FSN的算法)训练这些概率。它不但克服了规则无法完全描述语句的缺陷，成为语言知识的重要补充，还减少了识别的开销，提高识别的精度。我们建立了系统在WINDOWS下的多媒体风格的实现框架，完成了系统的图形界面，初步建立了系统的图象、文字、语音响应资源和控制机制。我们还自行开发了TMS320 DSP板的“伪设备管理程序”，解决了目前语音识别界普遍使用的 TMS320 DSP板与WIND0WS接口的问题，使我们关于TMS320 DSP板的工作在WINDOWS下得以保护
关键词	大词汇量连续语音识别自然语言处理多媒体人机对话系统
语种	中文
文献类型	学位论文
条目标识符	http://ir.ia.ac.cn/handle/173211/7117
专题	毕业生_硕士学位论文
推荐引用方式 GB/T 7714	王刚. 大词汇量连续语音理解系统的研究与实现[D]. 中国科学院自动化研究所. 中国科学院自动化研究所,1995.