CASIA OpenIR  > 毕业生  > 硕士学位论文
基于共振峰预测的源说话人无关语音转换研究
其他题名Source Speaker-independent Voice Conversion Based on Formant Prediction
彭长平
学位类型工学硕士
导师刘文举
2008-06-03
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词语音转换 源说话人无关 说话人特性描述 目标参数曲线预测 基于straight的语音修改 Voice Conversion Source Speaker-independent Speaker Charactieristic Profile Prediction Of The Target Acoustic Parameters Speech ModificatiOn Based On Straight
摘要人类很早就发现自己有模仿别人说话的能力,甚至某些动物,如鹦鹉,都有很强的模仿能力。语音技术发展到今天,研究人员逐渐意识到,这种模仿技术在现实中存在着巨大的需求,语音转换技术也顺理成章地成为语音处理领域继语音识别、语音合成之后的又一研究热。 语音信号中包含有说话内容、说话人特征和说话环境三部分的信息。语音转换的任务是要保持内容和环境的信息不变,修改其中说话人特征的信息,使其听起来像出自目标说话人之口。经典的源-滤波器模型参照人类发音系统的生理构造,将语音信号分解成声门激励源和声道声学滤波器。迄今为止,研究人员提出了许多量化的声学参数,以表征说话人之间声门和声道的差异。比如与声带开闭频率相关的基频;与声道长度和形状相关的共振峰频率和带宽;与声门脉冲相关的音质;与时间选取相关的时长、停顿、重读;甚至还有由社会、地理因素造成的口音差异等。 现有的语音转换技术没法考虑所有这些说话人相关参数的转换,一般只是选取其中最重要的几个参数,实现其在说话人之间的映射。目前,国内外主流的语音转换技术,是建立特定的一对说话人之间的频谱映射函数,同时实现两个人之间基频在对数域的线性转换,利用映射得到的频谱和基频,重新合成出具有目标说话人特性的语音。这种方法能够保证转换得到语音的自然度,以及与目标说话人语音的相似度。它的一个明显缺陷在于应用大量数据训练得到频谱和基频之间的映射函数,转换时只能适应于训练数据中特定的两个说话人。为了突破这一局限,我们提出一种从任意源说话人的MFCC向量到目标说话人的基频和前三个共振峰映射的方法,通过修改源语音STRAIGHT参数,使其合成后语音的基频和共振峰频率为目标值。 参照TIMIT库的SX和SA部分的文本,我们录制了452个句子作为目标说话人的训练语料,得到从MFCC向量到基频和共振峰的SVR模型参数;并从TIMIT库中挑选少量语句作为测试语音,利用训练得到的模型预测基频和共振峰的目标轨迹,然后利用STRAIGHT对输入语音进行分解、修改、合成得到转换后的语音。虽然在这种新的框架下,语音转换系统的源说话可以为任意说话人,但主观评估的结果表明,转换后的语音无论在音质和与目标说话人的相似度上,都同现有的特定说话人之间的语音转换性能上有明显的差距。但这是可以预见的,因为我们在训练阶段只用到了一定量的目标说话人语音,更重要的是,这个系统将任意说话人的语音都转换成具有目标说话人的音色特性。
其他摘要Speech conveys linguistic, speaker and environmental information. The objective of voice conversion is transforming the source speaker's voice characteristic to the target one, and preserving the other two parts of information. According to the voice production mechanism of human, the classical source-filter model was proposed to represent the speech signal, in which it was decomposed into glottal excitation signal and vocal tract acoustic filters. Each part of the signal is then represented by acoustic correlates which relate to anatomical or control device of the speech production mechanism. Acoustic correlates consist of pitch level, pitch range and pitch dynamics, formant locations and formant dynamics, and spectral shape and its dynamics. The glottal pulse and the aspiration and constriction noise correlates to the voice quality. Timing parameters, i.e. speaking rate and fluency, also contribute to the speaker's voice characteristics. None of the existing voice conversion systems transforms all of those acoustic correlates between the two speakers. Instead, the most prevailing method chooses to map the spectrum and the pitch. The converted utterance, which is produced by the speaker-dependent voice conversion system, maintains its naturalness and reaches a good similarity to the voice from the target speaker. Unfortunately, the mapping function estimated from a large amount of training utterances is only suitable for this particular conversion between the two certain speakers. To overcome the limitation, a novel source speaker-independent conversion framework is proposed. Firstly, the target tracks of the pitch and the first three formants are predicted from the MFCC (Mel-Frequency Cepstrum Coefficients) vectors of the source utterance with the trained SVR (Support Vector Regression) models.Then, the parameters from STRAIGHT (Speech Transform and Representation using Adaptive Interpolation of weiGHTed spectrogram) analysis are transformed according to the predicted tracks. Finally, the converted voice is synthesized from the modified parameters.
馆藏号XWLW1229
其他标识符200528014628083
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/7449
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
彭长平. 基于共振峰预测的源说话人无关语音转换研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2008.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20052801462808(1299KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[彭长平]的文章
百度学术
百度学术中相似的文章
[彭长平]的文章
必应学术
必应学术中相似的文章
[彭长平]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。