CASIA OpenIR  > 毕业生  > 博士学位论文
可视语音合成技术研究
其他题名Research on visual speech synthesis
李昊
学位类型工学博士
导师陶建华
2015-05-26
学位授予单位中国科学院大学
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词可视语音合成 发音器官合成 可视语音转换 说话人自适应 深度回归网络 Visual Speech Synthesis Articulatory Synthesis Visual Speech Conversion Speaker Adaptation Deep Regression Network
摘要可视语音合成技术是人机交互领域和语音技术研究中一个重要的方向。人的语音由发音器官产生,因此人在进行语音表达时,必然会伴随着面部和发音器官运动的信息,这些视觉信息在人的交流和语言学习中起着重要的作用。本文围绕可视语音合成系统的构建,分别从多模态数据库建立、虚拟发音器官建模和声学参数到可视语音参数的映射模型几个方面对可视语音合成技术进行了研究。论文主要有以下具体内容:录制了一个可视语音汉语普通话多模态数据库,该数据库包含多名说话人的同步语音及电磁发生记录仪数据。录制的音节涵盖了汉语的元音发音、部分高频字词以及一定量的连续语句。这一数据库的建立给后续的可视语音研究提供了重要资料。构建了一个实验性的可视语音合成系统。系统实现了由声学信号实时生成可视语音动画的功能。该系统参考人脸动画参数的定义提出了一种新的多说话人EMA数据归一化方法,结合基于混合高斯模型的映射方法来实现语音到可视语音参数的映射。映射模型采用汉语多说话人的多模态数据进行训练,使得该系统可以接收任意说话人的语音信号并输出可视语音。基于计算机图形建模构建了虚拟的说话人面部和发音器官曲线和网格模型。系统合成的动画在主观测试中证明是有助于元音的辨别的,在语音缺失的情况下,接受测试者均能一定程度上从动画本身判别所发出的元音音节。针对模型说话人和训练数据中的说话人不一致的问题,提出了两种解决方案。首先,提出了一种EMA数据的说话人转换方法。该方法结合空间形变技术和码本映射方法,并同时将声学参数考虑进来。它首先使用薄板样条逼近技术将一名说话人EMA空间进行扭曲使得其接近目标说话人,继而结合声学参数使用码本映射方法完成说话人转换。提出的方法得到了比单独使用空间形变和码本映射好的效果。其次,进行了基于隐马尔科夫模型的声学参数和可视语音参数模型自适应的研究。采用基于HMM的建模方法和基于受限最大似然线性回归的自适应方法,将声学参数和可视语音参数进行联合建模,并讨论了两种参数自适应变换的结构对建模性能的影响。在声学参数到可视语音参数的映射实验中,两种参数联合建模且共享状态聚类决策树和自适应变换的方式,得到了最好的效果。最后将说话人转换方法和自适应方法对目标说话人EMA数据的建模能力进行了对比,得出说话人转换方法更适合数据量较少且数据相对平均的情况而自适应方法在数据量大的情况下更有优势的结论。提出了基于多层神经网络的实时核磁共振成像数据预测方法。介绍了由语音预测发音器官运动方面的创新工作,即由语音信号对rtMRI图像序列进行估计。文章采用的方法是基于受限玻尔兹曼机和线性回归的深度回归网络,并在此基础上提出了一种深度结构,即在深度回归网络基础上再堆积基于高斯伯努利RBM的编码层的结构。实验结果证明深度神经网络可以有效的完成这项任务,且编码层的存在起到了MRI数据压缩的作用。采用该方法预测得到的rtMRI图像可以用于可视语音的展示和进一步分析。
其他摘要Visual speech synthesis technology is very important in the research of speech technology and human computer interaction. Speech is generated by human articulators, and there will be visual information come alone with the speech acoustic signal, including facial expression and the movement of articulators. The visual information plays an important role in human communications. The main contribution of this thesis is visual speech synthesis system construction, and several key aspects are addressed, including multi-modal dataset construction, virtual human articulators modeling as well as statistical mapping between acoustic features and visual speech features. Specifically, this thesis contains the following research: A visual speech multi-modal dataset designed for Mandarin is collected. This dataset contains multi-speaker's electromagnetic articulography data and real-time speech waveform. The text corpus covers all the Mandarin vowels, compound vowels and some high frequency syllables and sentences. As a supplementary material, this dataset will facilitate further studies on visual speech. A prototype of visual speech synthesis system is constructed, which takes speech waveform of arbitrary speaker as input and performs real-time visual speech animation of lip and tongue. The visual speech features across speakers are normalized by defining a set of EMA directional relative displacement features, which is inspired by the face animation parameters. The Gaussian mixture model is trained by multiple speaker's data for the mapping between acoustic parameters and the visual speech features. Graphical human articulator models based on curves and meshes are built for synthesizing animations. The subject evaluation for the system indicates that the synthesized articulatory animations can help the subjects distinguish vowels when no sound provided. The visual speech features across speakers contains speaker-specific characteristics which make it difficult to synthesize a target speaker's visual speech using multiple speaker's data. To address this problem, two strategies are used. The first strategy is feature conversion across speaker. An EMA data conversion method is proposed, which combines spatial morph method and codebook mapping algorithm and also takes the acoustic parameters into consideration. It morphs the source speaker's data using thin-plate spline approximation and then combines the morph result with the codebook mapping result. This method is ...
其他标识符201218014628045
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6694
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
李昊. 可视语音合成技术研究[D]. 中国科学院自动化研究所. 中国科学院大学,2015.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20121801462804(3286KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[李昊]的文章
百度学术
百度学术中相似的文章
[李昊]的文章
必应学术
必应学术中相似的文章
[李昊]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。