CASIA OpenIR  > 毕业生  > 博士学位论文
基于随机段模型的汉语语音识别算法研究
其他题名Stochastic Segment Model based Mandarin Speech Recognition
唐赟
学位类型工学博士
导师刘文举
2006-06-03
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词段模型 随机段模型 汉语数字串识别 大词汇量连续语音识别 快速搜索算法 段模型建模 Segment Model Stochastic Segment Model Mandarin Digit String Recognition Lvcsr Fast Decoding Algorithm Segment-based Modeling
摘要声学建模是语音识别系统中的核心技术,声学建模能力的增强对语音识别系统性能的提高具有重要意义。隐马尔柯夫模型(Hidden markov model, HMM)解码效率高,是现在使用最广,也是最成功的声学模型。但HMM以帧为语音处理单元的声学建模方式导致了一系列的无法克服问题,限制了它的建模能力。 基于上述原因,研究者们提出了一种更一般的声学模型——段模型。由于段模型的计算复杂度过高,现在还未能有效地应用于实际系统,如大词汇量连续语音识别(large vocabulary continuous speech recognition,LVCSR)系统。 本文对段模型中的一类模型,随机段模型,进行了全面的研究和深入的探讨,建立了一个直接基于段模型的汉语 LVCSR 系统,并提出了符合段模型特点的LVCSR 系统的建模和搜索方案。 主要工作和创新点如下: 建立了一个基于随机段模型的汉语连续数字串识别系统和一个 LVCSR 系统。连续数字串系统实现的基本的建模和解码算法,为后面的LVCSR系统实现打下了良好的技术基础。 根据随机段模型的建模特点,提出其在汉语 LVCSR 识别中的建模方案,以及两种参数合并算法:基于音素的决策树参数合并算法和上下文时长模型参数合并平滑技术。两种方法很好地解决了段模型中声学模型训练时遇到的数据稀疏问题,优化了模型的结构和性能。在863语音测试集中,随机段模型系统较同等条件下HMM系统减少了17.2%的相对字错误率。 通过分析随机段模型解码的过程,探明其复杂度来源于两个方面:段概率计算复杂度高和搜索空间巨大。这两个因素对算法复杂度的影响是乘积的关系,而不是通常的加和性质。所以要在实用系统中使用段模型,需要同时优化这两方面的性能。本文给出的解决方案包括: 针对段概率计算复杂度高的问题,提出了快速段模型解码框架和多步段计算算法。极大地缓解了段概率计算复杂度高的问题,在小词汇量语音识别应用中(如连续数字串)达到了实时要求,且其数字串的误识率较同类HMM系统下降了36.5%,取得了很好的结果; 针对搜索空间大的问题,提出了着色法和由粗到细一遍搜索剪枝算法。着色法将语音序列着上不同颜色,使其对应声学空间内不同的区域,并通过与三音子模型的颜色进行匹配,达到剪枝的目的;由粗到细一遍搜索算法将解码分为两种类型,粗扩展和细扩展。算法根据切分的相似性,利用粗扩展获得切分的潜在区域,使用细扩展获得准确的解码结果,避免了不必要的声学模型扩展和估计。和以往算法不同的是,这两种扩展可以在一遍搜索的过程中完成。着色法和由粗到细一遍搜索算法在不降低解码精度的情况下,成功地将识别时间减少到基线系统的五分之一以内,极大地提高了解码的效率。 针对段模型解码特点,提出了全路径解码算法,取代现有的最优路径解码方案,可部分弥补由可切分性假设带来的缺点。为充分利用段模型解码特点,优化现行解码框架,做出了有益的探索。 基于段模型的LVCSR建模和搜索算法是本文工作的核心和亮点,在综合应用上述算法和技术之后,基于段模型的汉语LVCSR系统取得了比同等条件下HMM系统更高的识别精度,解码时间也控制在四倍实时以内,是段模型实用化的一个重要进展。
其他摘要Acoustic model is one of the core techniques in speech recognition. This thesis focuses on both modeling and decoding of the stochastic segment model, which is one kind of segment models. And a segment based mandarin large vocabulary continuous speech recognition (LVCSR) system has been built successfully. The main contributions and novelties include: Complete a segment model based mandarin digit string recognition system and a segment model based LVCSR system; Propose several techniques to model the segment model based LVCSR system, that are, a phoneme based decision tree parameter tying method and a context dependent duration parameter tying and smoothing method. These methods resolve the data sparsity problem in acoustic modeling and also optimize the system performance. The high complexity of segment model comes from two aspects: the high complexity of segment measurement and the tremendous search space. In order to apply segment model to practice tasks, these two factors need to be refined at the same time. The solutions in this thesis are: Propose a fast segment decoding framework and a multi-step segment measurement algorithm to alleviate the high complexity of segment measurement. These methods greatly reduce the complexity in segment measurement and reach the real-time requirement in small vocabulary recognition tasks, such as in continuous digit string recognition; Propose the coloring speech utterance method and one-pass coarse-to-fine decoding algorithm to reduce the tremendous search space. The coloring speech utterance method labels the speech utterance with different colors, corresponding to different regions in acoustic space. The triphone models with colors different from hypothesis segments will be pruned; the one-pass coarse-to-fine algorithm decodes the speech by two extension phases, coarse phase and fine phase. Based on the segmentation similarity, the algorithm uses the coarse extension to obtain segmentation information and the fine extension to get the accurate decoding result. These two phases are performed within one decoding pass, which distinguishes this coarse-to-fine algorithm from previous decoding methods. Without downgrading the system performance, these fast algorithms decrease the run-time of the system by 5 times. Propose an all-path decoding algorithm to replace the best path based decoding algorithm. The weakness of the dividable assumption is partially amended in decoding by fusing information from all possible paths. The all-path decoding shows the flexibility of segment based decoding. The modeling and decoding in the mandarin LVCSR system are the highlights in this thesis. The completed system has achieved a better performance than the comparable HMM system and the run time is under 4 times of the run-time. It is a great progress for applications of segment model in practice speech recognition systems.
馆藏号XWLW986
其他标识符200418014690012
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/5929
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
唐赟. 基于随机段模型的汉语语音识别算法研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2006.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20041801469001(4631KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[唐赟]的文章
百度学术
百度学术中相似的文章
[唐赟]的文章
必应学术
必应学术中相似的文章
[唐赟]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。