CASIA OpenIR  > 毕业生  > 硕士学位论文
中英文混合语音合成系统
其他题名Chinese-English Mixed-Language TTS system
张毅
学位类型工学硕士
导师陶建华
2009-05-27
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词英文语音合成 中英文混合 韵律模型 基元选取 English Tts Chinese–english Mixed Language Tts Prosody Model Unit Selection
摘要语音合成技术是人机语音通信的重要组成部分,基于此开发的产品涉及到人类生产生活的很多方面。随着信息化程度的提高,国际交流的频繁尤其是互联网的发展,不同语言之间的交流越发重要,越来越多的多语言混合应用开始涌现。在生产生活中,我们经常遇到在中文句子中混合有英文的名字,专有名词,或者某些习惯用语的情况。因此,实现多语言混合语音合成是语音合成技术广泛应用的必要环节。 本文的研究工作包括: 开发了基于波形拼接技术的英文语音合成系统,对各模块使用的关键技术进行分析和探讨。使用二元语法模型进行词性预测,最大熵模型进行韵律短语边界预测,讨论了英文语音合成的基本单元及其优缺点,考虑了使用中文语音合成系统中成熟的韵律预测方法进行英文韵律预测的效果。声学模块给出了目标代价和拼接代价的考虑因素和计算方法。 详细分析了中文和英文的区别,这些区别是中英文混合合成系统设计和开发的难点和要点所在。分析了在中英文混合语料中中文和英文的相互影响,包括两个方面:一个是中文声调和英文重音的关系,第二是中文和英文在韵律上的相互影响。基于分析结果,提出了针对嵌入在中文上下文中的英文的韵律调整模型,包括时长调整模型和基频调整模型,从而产生自然度高的混合韵律。 构建了中英文混合语音合成系统,在实现过程中,主要关注了中文合成系统和英文合成系统的融合,增加了韵律调整模块,并且针对一类常见中英文混合现象-中文句嵌入字母词,提出了有效的解决方案。
其他摘要Text-to-Speech(TTS) technology is one of the most important parts of human-machine speech communication, products based on it have been used in many fields. However, with the rapid development of international communication and internet, the intercommunication of different languages becomes more and more important. The situation we usually meet is: some English words are embedded in Chinese texts, such as Names, Proper Nouns and Common words. Therefore, mixed-language TTS is an essential step for the future of TTS. This article develops an English TTS system based on wave combination, discusses the main technologies used in each module. Such as Bi-Gram Model in POS(Part Of Speech) tagging function, Max Entropy Model in prosodic phrase prediction. It also analyzes different basic units and the strength and weakness of them, and tests the prosody prediction model, which is originally used in Chinese TTS system, in predicting English prosody. A detailed explanation about target cost and concatenate cost is given in the paper. It gives an overall analysis about the differences between Chinese and English, analyzes inter-influence between Chinese and English in bilingual corpus, which includes two aspects: the relationship of English stresses and Chinese tones; the prosodic inter-influence. It proposes a prosodic adjustment model based on the above results in order to generate natural bilingual prosody. Finally, a Chinese-English mixed-language TTS system is constructed, special attentions have been paid to combining Chinese TTS and English TTS, and a prosody adjustment module is added. What’s more, we bring forth an effective proposal to solve the common bilingual situation: lettered-words.
馆藏号XWLW1342
其他标识符200628014628072
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/7477
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
张毅. 中英文混合语音合成系统[D]. 中国科学院自动化研究所. 中国科学院研究生院,2009.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20062801462807(510KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[张毅]的文章
百度学术
百度学术中相似的文章
[张毅]的文章
必应学术
必应学术中相似的文章
[张毅]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。