CASIA OpenIR  > 毕业生  > 硕士学位论文
面向参数语音合成声学建模
其他题名Acoustic modeling for Parameter Speech Synthesis
孙宏军
学位类型工学硕士
导师陶建华
2010-05-25
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业计算机应用技术
关键词声源激励 谱包络估计 韵律调节 谱平滑 语音参数量化 Source Exciting Spectrum Envelop Estimation Prosody Adjust Spectrum Smooth Speech Parameters Quantization
摘要随着人机交互技术的发展,语音合成技术得到了广泛的应用,用户对合成系统也提出了越来越高的要求。一方面,用户希望合成系统能够合成出流畅、清晰、自然的高质量语音;另一方面,又不希望合成系统占用过多的计算开销和存储开销。因此,本文从实际需求出发,选用基于隐马模型基元选取的参数拼接语音合成框架,对源滤波器语音模型的声源激励和声道谱包络,参数拼接调整方案以及合成系统的声学设计框架进行了详细的研究。 本文的研究工作如下: 首先,本文分析了线性预测合成器的激励产生和STRAIGHT合成器的谱包络拟合。线性预测合成器的激励建模方法有多种,本文尝试了LF激励模型、码本激励模型、多带混合激励模型,并分析这几种模型作为激励得到的语音质量。另外,对于STRAIGHT分析得到的513维/帧的谱参数,本文运用全极点模型等方法进行拟合,将参数降到24维/帧。并评价了用模型系数重建频谱包络所得的合成语音质量。 其次,针对合成系统所取得的候选单元声学参数不连续,并且其韵律特征也不一定符合系统需要的问题,本文提出了一系列调节调整方法。对于相邻拼接单元,我们首先要搜索最佳的拼接点,接着按照隐马模型预测时长调整拼接单元的声学参数帧数,然后将参数拼接在一起时,拼接时还需要在边界进行参数调整,最后再利用滑动窗平滑,这样使得相邻拼接单元之间参数连续的拼接在一起。另外,在利用声学参数进行语音综合时,我们还利用人耳听觉特性对频谱参数的共振峰结构进行调整,使得合成语音的听觉效果更好。 最后,本文给出了基于隐马模型基元选取参数拼接语音合成的详细声学设计,完成了一个具有29289个候选音节、总大小为3.18MB的语音数据库。
其他摘要With the development of human interaction (HCI), speech synthesis technology is widely used, and people have more requirements for the text-to-speech (TTS) system. On one hand, people hope TTS system output frequently, clearly, normally high quality waveform; on the other hand, it is not allowed that TTS system occupy more computer cost and storage cost. So, an HMM based unit selection parameter joint speech synthesis framework is used in this paper. In this framework, we do some research work on source exciting and spectrum envelop of source-filter speech model, and parameter joint modification plan. The detailed work in this paper is as follows: Firstly, we analyze the exciting part of linear predication model and the spectrum envelop fitting of STRAIGHT model. There are many exciting method for linear predication model, we tried noise-pulse exciting model, LF exciting model, codebook exciting model and multi-band exciting model in this paper, and give the evaluation result of these exciting model. Besides, we adopt all-pole model and Gaussian mixture to fit the 513 dimensional spectrum parameters, so that the parameters are transformed to 24 dimensional coefficients. Then we evaluate the fitting results. Secondly, the acoustic parameters of speech units are commonly not continuous, and the prosody are sometimes not in accordance with the target prosody, so some prosody adjusts and acoustic parameter modification plans are proposed to solve these problems. Search the best joint position makes the bonder of speech unit more stable; Adjust the pitch and duration makes the prosody of speech unit be in accordance with the target prosody; Modify the bonder acoustic parameter of speech unit and sliding window smooth makes the neighbor speech units smoothly, continuous joint tighter. The spectrum formant structure is modified according to the human ear auditory perception model, which makes the synthesis speech more clearly. In the end, detailed acoustic framework design for such a TTS system is given. A 3.18 MB speech database with 29289 syllables is completed.
馆藏号XWLW1552
其他标识符200728014629090
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/7534
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
孙宏军. 面向参数语音合成声学建模[D]. 中国科学院自动化研究所. 中国科学院研究生院,2010.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20072801462909(840KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[孙宏军]的文章
百度学术
百度学术中相似的文章
[孙宏军]的文章
必应学术
必应学术中相似的文章
[孙宏军]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。