CASIA OpenIR  > 毕业生  > 博士学位论文
面向多语言语音识别的声学建模研究
其他题名Research of Acoustic Modeling for Multilingual Speech Recognition
孟猛
学位类型工学博士
导师徐波
2008-05-26
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词多语言声学建模 语种移植 关键词检测 Multilingual Acoustic Modeling Cross Language Transfer Key-word Spotting
摘要目前语音识别技术在研究和应用领域取得了比较大的进展,但在大多数的使用环境下,都是以单一语种的语音识别为主。而在实际应用中,许多潜在的语音识别任务都需要有多语言的支持。为了提高语音识别系统的应变能力,使语音识别产品的使用人群覆盖面更广,多语种通用语音识别系统的研究逐渐成为目前语音识别研究的一个重点。目前国际上主流的研究单位已经对该领域展开了比较广泛的研究。针对声学建模层面,主要研究内容包括:支持多语种语音识别的通用声学建模技术,以及小语料语种识别系统的快速移植等。与单一语种的研究相比,多语种研究还不够成熟,研究任务相对比较简单,基于口语化电话语音的多语言声学建模及其跨语种应用方面的研究结果比较少见。 本文的研究基于LDC发布的CallHome和CallFriend集中的多语种口语对话式电话数据,对多语种通用声学建模的音子集的优化方法、问题集设计、跨语种声学模型移植等方面进行了比较系统的实验研究,并在基于样本的关键词检测、语种识别等领域加以应用。本文的工作重点如下: 首先,在中英文混合声学模型的建模中,本文提出了基于类间似然度变化准则的通用音子单元聚类方法,并且引入语言学知识作为辅助手段,提高通用音子建模的有效性。该方法与基于IPA的聚类方法进行了比较,取得了较好的性能。通过口语电话关键词检测集任务上的一系列实验,分析了通用音子建模的优势,以及语言学知识在聚类方法中的影响。 其次,本文将多语言通用声学模型的建模研究扩大到七个语种之上,采用了基于发音特征的问题集组织和生成方法实现通用模型的快速三音子建模,并在多语种口语电话语音关键词检测实验上,考察了通用音子集的规模对检测性能的影响。针对不同的音子集规模,作了大量的实验,发现通用声学模型的性能表现与其对应的音子集的规模表现出类似“U”形的变化。本文提出了对这种现象的解释:音子的共享合并一方面可以使处于竞争关系的类似音子避免混淆,另一方面,不同音子间的合并也必然带来其声学描述能力的下降,两者相互作用、互相牵制,最优的音子集出现在两者相互平衡的地方。 再次,本文在跨语种声学模型快速移植领域,考察了仅利用目标语种语音语言学知识的基础上,将现有模型移植到集外语种的方法,提出了一种基于区分性特征的决策树共享的方法,实现了具有通用性的集外语种移植方案,并取得了一定的效果。同时,实验显示,缺乏目标语种数据时,跨语种语音识别的性能大受到影响。因此本文又在少量目标语种数据的基础上,进行了模型自适应工作,并提出了基于目标数据引导和参与训练的建模方法获得更好的语种移植性能,取得了比较满意的结果。 最后,本文将多语种声学建模技术应用于基于语音样本的关键词检测方案中。该方案以若干关键词语音样本作为输入,采用了基于音子混淆网络进行动态规划的方法,优化关键词在通用声学模型上的声学描述,实现了可以应对未知语种的口语电话语音关键词检测系统。本文还将多语言通用音子模型应用到语种识别任务上。与传统的单语种识别系统相对比,使用多语种通用音子识别器可以取得更好的效果。
其他摘要Recent years have seen great improvements in the performance of automatic speech recognition. A majority of the recognizers are limited in dealing with mono-language speech while in many applications supporting for multiple languages is necessary. Therefore, a comprehensive support for languages is one of the key characteristics that the speech driven applications need to fulfill. The research on acoustic modeling for multilingual speech recognition is much accounted of. The main content of this research includes: multilingual acoustic modeling and cross language transfer. The works in these areas are rising and the production on conversational telephone speech is rare. We use CallHome and CallFriend speech databases. This work concerns with the refinement of multilingual phoneme set, denotation of question set and cross language acoustic modeling. The main works of this paper are as follows. Firstly, a phone model clustering method is proposed which takes the likelihood change between inter-classes as the distance measure. This method is used to generate Mandarin-English bi-lingual phone models. The phonetics and philology knowledge is introduced simultaneity to assist the clustering process. With these approaches, the multilingual phone set is optimized. The knowledge of linguistic is embodied in the clustering method and the effect of it is analyzed. Secondly, the multilingual acoustic modeling method is generalized to support seven languages. We use the articulatory feature based question set in triphone modeling and find out the relation of phone set size and the performance on multilingual CTS(Conversational Telephone Speech) KWS(keyword-spotting) task. A “U”-like curve is showed and we give the causation: On the one hand, too many separate homologous models competing in acoustic space will harm to performance. On the other hand, the merger of too many source models lead to descend of modeling precision. The balance of these two factors is necessary. Thirdly, we proposed a DF(Distinctive Features) based decision tree sharing method in cross-lingual transfer area. With limited data of the target language, the acoustic model adaptation processes is applied. By using the adaptation data for decision tree generation as well as parameter estimation, we achieve better performance. Finally, we use the multilingual model for LID (Language Identification) and speech sample based KWS tasks. A phone confusion-network is used to enhance the universality of the final selected transcriptions based on the speech sample inputs, and a language independent CTS KWS system is realized. Compared with using mono-lingual speech recognizer, the PRLM(Phone Recognition followed by Language Modeling) based LID system with multilingual model is better.
馆藏号XWLW1237
其他标识符200418014628082
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6075
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
孟猛. 面向多语言语音识别的声学建模研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2008.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20041801462808(908KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[孟猛]的文章
百度学术
百度学术中相似的文章
[孟猛]的文章
必应学术
必应学术中相似的文章
[孟猛]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。