CASIA OpenIR  > 毕业生  > 博士学位论文
统计参数语音合成中语音参数化方法研究
其他题名Research on Parametric Representation of Speech for Statistical Parametric Speech Synthesis
温正棋
学位类型工学博士
导师陶建华
2013-05-29
学位授予单位中国科学院大学
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词语音合成 隐马尔可夫模型 激励模型 语音分析合成模型 参数生成算法 Speech Synthesis Hidden Markov Model Excitation Model Speech Parametric Representaiton Parameter Generation Algorithm
摘要统计参数语音合成方法近年来吸引了越来越多研究者的关注,特别是基于隐马尔可夫模型(Hidden Markov Model, HMM)的语音合成方法。该合成方法具有输出语音平滑连贯、语音参数灵活控制、系统搭建快速和资源文件空间占用小等优点。但是该合成方法也有其局限性,如过于简单的语音分析合成模型造成合成语音的音质和清晰度都不够高和过于平滑的语音参数生成轨迹造成合成语音的自然度和清晰度都不够理想。本文以基于隐马尔可夫模型的语音合成方法为对象,对该方法中的语音参数化方法展开深入研究,在准备阶段提出了建模精度更加精确的语音分析合成模型,在合成阶段对语音参数生成算法进行了优化。本文的具体研究工作和成果如下: 提出了基于谐波噪声的混合激励模型。语音信号逆滤波后得到的残差信号,它的频谱可以通过一个最大谐波频率划分为低频段的谐波成分和高频段的噪声成分。因此在该模型中提出了基于K均值聚类的最大谐波频率估计算法,将残差信号的频谱按照每个子带划分谐波和噪声两类,通过一个维特比(Viterbi)算法搜索最优的最大谐波频率轨迹。当将该模型加入到基于隐马尔可夫模型的语音合成系统中时,最大谐波频谱作为一个独立参数流加入到模型训练。在合成时,激励信号的低频段通过一组谐波相关的正弦信号来构建,高频段采用高斯白噪声来合成。实验结果表明该方法能够有效的减弱合成语音的蜂鸣声,取得了比传统脉冲串激励模型更好的合成效果。 提出了基于残差信号频谱重构的语音分析合成模型。残差信号的频谱除了在高频段体现出噪声结构外,它还保留了一些频谱信息,这些信息在线性预测频谱中并没有进行考虑。因此,本模型采用了基于多基音周期(Pitch-Scaled Analysis)的频谱分析方法,该方法能够方便提取残差信号中的谐波结构,并将这个谐波结构保留为激励的周期频谱。激励的非周期成分定义为残差信号频谱上的谐波噪声比,并通过最大谐波频率拟合成一条S函数曲线。当将该模型加入到基于隐马尔可夫模型的语音合成系统中时,激励周期频谱分别通过主成分分析(Principal Component Analysis, PCA)、码本索引和深层神经网络三种压缩方法进行降维和重构,并且和非周期成分作为两个独立参数流加入到模型训练。实验结果表明基于残差信号频谱重构的语音分析合成模型提高了基于线性预测的语音分析合成器和基于隐马尔可夫模型的语音合成系统合成语音的音质和清晰度。 提出了基于统计量调整的参数生成算法。基于隐马尔可夫模型的语音合成系统生成的参数轨迹存在过平滑问题,这是由于基于决策树的聚类使得语音参数严重“平均化”,生成参数的共振峰结构变得不清晰,从而造成合成语音的清晰度和自然度上不够理想,存在发闷的效果。一种改进方法是结合整体方差 (Global Variance, GV)的参数生成算法,但是该方法只考虑了参数的一阶统计量和二阶统计量。因此在基于统计量调整的参数生成算法的参数生成过程中考虑了语音参数的一到四阶统计量。实验结果表明在合成语音的清晰度和自然度上基于统计量调整的参数生成算法要明显好于结合动态特征的参数生成算法,因为增加考虑了三阶和四阶统计量,...
其他摘要Statistical parametric speech synthesis has caught a great of researchers’ attentions in recently years, especially the Hidden Markov Model (HMM)-based speech synthesis system (HTS). This system takes a lot of advantages, such as smooth and fluent synthesized speech, flexible modification of speech parameters, quickly system construction and a small footprint. However, this system is also suffered from some problems. One is the over-simplified vocoding technique which makes synthesized speech sounding in low quality and intelligibility. Another one is the over-smoothing trajectory of the generated speech’s parameters which makes the synthesized speech sounding in low intelligibility and naturalness. This paper will research on the parametric representation of speech for the HMM-based speech synthesis system. In the preparing stage, an excitation model and a parametric representation of speech are proposed. In the synthesizing stage, a technique is introduced in the speech parameter generation algorithm. In detail, the dissertation includes: A harmonic plus noise mixed excitation model is described. Residual signal is obtained from speech signal by inverse filtering and its spectrum can be split into a low-frequency harmonic region and a high-frequency noise region by the Maximum Voicing Frequency (MVF). A new MVF calculation method based on K-means algorithm is proposed. The spectrum of residual signal is split into sub-bands which are clustered into two classes and a Viterbi algorithm is used to search a smoothed MVF contour. This model is introduced into the HMM-based speech synthesis system and MVF is treated as an independent parametric stream in the training stage. In the synthesizing stage, the excitation signal is generated by a sum of a number of harmonicially related sinusoids and a high-passed white Gaussian noise. The experiments results show the proposed excitation model could reduce the buzz sounding problem and sound better than the pulse train excitation model. A parametric representation of speech based on spectral reconstruction of the residual signal is proposed. The spectrum of the residual signal not only shows a noise structure in the high-frequency region, but also researves some detailed harmonic structures which have not been included in the linear prediction (LP) spectrum. The proposed technique is based on the pitch-scaled analysis which could easily extract the detailed harmonic structure of the residual signal and the pitc...
馆藏号XWLW1875
其他标识符201018014628064
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6534
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
温正棋. 统计参数语音合成中语音参数化方法研究[D]. 中国科学院自动化研究所. 中国科学院大学,2013.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20101801462806(3024KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[温正棋]的文章
百度学术
百度学术中相似的文章
[温正棋]的文章
必应学术
必应学术中相似的文章
[温正棋]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。