基于VQ-HMM的非特定人语音识别与说话人自适应算法研究

CASIA OpenIR > 毕业生 > 硕士学位论文

	基于VQ-HMM的非特定人语音识别与说话人自适应算法研究
	张希军
	1995-06-01
学位类型	工学硕士
中文摘要	语音识别是一门新兴的边缘科学。随着计算机技术的发展，当今社会信息化、自动化的要求不断提高，语音识别也越来越重要。非特定人语音识别、大词汇量语音识别、连续语音识别是实现语音识别实用化的三项关键技术，其中，非特定人语音识别最为困难。虽然特定人语音识别已经取得了一定的成就，但仍不能得到广泛的应用，人们渴望非特定人语音识别系统早日走向实用。同时，人们也注意到非特定人语音识别系统的错误率通常是特定人系统的 2～3倍，这是非特定人识别系统走向实用的最大障碍，可以通过自适应方法对系统性能加以改善。语音识别系统的自适应功能可以大大地减少训练量，节约训练时间，并且可以避免随时间推移系统不适应造成的重新训练要求，也可以使一个特定人或非特定人系统转变为一个新的特定人系统，同时适应声学环境和声学通道的改变。本文针对非特定人语音识别和说话人自适应开展研究，制定了非特定人语音识别的基本策略是：在多个说话人语音库的基础上，建立一个尽可能精确的非特定人语音识别系统，然后采用自适应的方法，利用新说话人少量的训练语料，使系统与新的说话人相互适应，获得较高的识别率。基于上述策略，我们建立了一个20人每人646词的非特定人语音库，并在此基础上建立了一个基于VQ-HMM 的中等词汇量语音识别系统，对非特定人语音识别及说话人自适应进行了多方面的研究、分析和实验：研究了端点检测算法；对LPC 倒谱和MFC倒谱两种不同特征参数作了分析比较：对HMM声学模型进行了优化；对非特定人大词汇量语音识别进行了实验；在优化的声学模型和MFC倒谱为特征的基础上，进行了三种说话人自适应算法的研究和改进，采用多种方法相结合的途径，在新说话人的训练语料仅为训练集内说话人语料16％的情况下，使训练集外说话人语音识别达到了训练集内的水平；分析了自适应训练语料数与识别错误率的关系；对系统在不同声学通道和声学环境下的鲁棒性以及自适应算法的适应性进行了实验；针对三种自适应算法的性能特点，提出了将三种自适应算法应用于语音识别系统的基本策略。
语种	中文
文献类型	学位论文
条目标识符	http://ir.ia.ac.cn/handle/173211/7115
专题	毕业生_硕士学位论文
推荐引用方式 GB/T 7714	张希军. 基于VQ-HMM的非特定人语音识别与说话人自适应算法研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所,1995.