CASIA OpenIR  > 毕业生  > 硕士学位论文
关键词语音合成 韵律预测 深度学习 词向量
韵律是语音中的超段特征,它能够促进和增补义、用等信息表达因 韵律是语音中的超段特征,它能够促进和增补义、用等信息表达因 韵律是语音中的超段特征,它能够促进和增补义、用等信息表达因 韵律是语音中的超段特征,它能够促进和增补义、用等信息表达因而在口语交流中起着非常重要的作用,自然也成为音言 而在口语交流中起着非常重要的作用,自然也成为音言 而在口语交流中起着非常重要的作用,自然也成为音言 科学研究和 科学研究和 言语工程 的 一个重要组成部分 。汉语韵律预测也是音合成 系统中必不可少的环节,它生。汉语韵律预测也是音合成 系统中必不可少的环节,它生。汉语韵律预测也是音合成 系统中必不可少的环节,它生。汉语韵律预测也是音合成 系统中必不可少的环节,它生基频、静音等参数的前提,其准确率很大程度上决定了合成语自然甚至可懂 基频、静音等参数的前提,其准确率很大程度上决定了合成语自然甚至可懂 基频、静音等参数的前提,其准确率很大程度上决定了合成语自然甚至可懂 基频、静音等参数的前提,其准确率很大程度上决定了合成语自然甚至可懂 度。本文的研究重点是如何使用深学习中方法,来提高韵律节奏预 测、时长度。本文的研究重点是如何使用深学习中方法,来提高韵律节奏预 测、时长度。本文的研究重点是如何使用深学习中方法,来提高韵律节奏预 测、时长度。本文的研究重点是如何使用深学习中方法,来提高韵律节奏预 测、时长测的效果。本文主要工作包括以下几个方面:
(1)构 建了大规模的节奏标注语料库。本文采用三级结)构 建了大规模的节奏标注语料库。本文采用三级结)构 建了大规模的节奏标注语料库。本文采用三级结)构 建了大规模的节奏标注语料库。本文采用三级结)构 建了大规模的节奏标注语料库。本文采用三级结--- 韵律词、短语 韵律词、短语 韵律词、短语 韵律词、短语 和语调短来定义汉节奏。通过对多人标 和语调短来定义汉节奏。通过对多人标 注的语料库中进行统计分析,发现韵律 注的语料库中进行统计分析,发现韵律 注的语料库中进行统计分析,发现韵律 节奏的组织存在较大自由度。尤其是语调短,一致性明显低于韵律以及 节奏的组织存在较大自由度。尤其是语调短,一致性明显低于韵律以及 节奏的组织存在较大自由度。尤其是语调短,一致性明显低于韵律以及 节奏的组织存在较大自由度。尤其是语调短,一致性明显低于韵律以及 韵律词。
并对各级短语的音步、节数目进行了统计分析(2)对比了最大熵、决策树条件随机场等传统器学习模型在韵律节奏预测 )对比了最大熵、决策树条件随机场等传统器学习模型在韵律节奏预测 )对比了最大熵、决策树条件随机场等传统器学习模型在韵律节奏预测 )对比了最大熵、决策树条件随机场等传统器学习模型在韵律节奏预测 )对比了最大熵、决策树条件随机场等传统器学习模型在韵律节奏预测 )对比了最大熵、决策树条件随机场等传统器学习模型在韵律节奏预测 中的效果。提出了基于循环神经网络模型韵律节奏预测方法在比较不同结构 中的效果。提出了基于循环神经网络模型韵律节奏预测方法在比较不同结构 中的效果。提出了基于循环神经网络模型韵律节奏预测方法在比较不同结构 中的效果。提出了基于循环神经网络模型韵律节奏预测方法在比较不同结构 的时序记忆单元之后发现,不同结构循环神经网络对韵律节奏预测性能影响并 的时序记忆单元之后发现,不同结构循环神经网络对韵律节奏预测性能影响并 的时序记忆单元之后发现,不同结构循环神经网络对韵律节奏预测性能影响并 的时序记忆单元之后发现,不同结构循环神经网络对韵律节奏预测性能影响并 不大,而且此方法较传统的模型效果有明显提升。
(3)为了考虑更多 进一步提升韵律节奏预测的效果,本文还特别引入了词表示 进一步提升韵律节奏预测的效果,本文还特别引入了词表示 方法中的词向量特征,来 方法中的词向量特征,来 作为 循环神经网络的 补充特征 。经验证,词向量特征在韵 。经验证,词向量特征在韵 律节奏预测问题中,可以较好的适应循 律节奏预测问题中,可以较好的适应循 环神经网络。为了将词 向量特征和传统的环神经网络。为了将词 向量特征和传统的环神经网络。为了将词 向量特征和传统的法特征更好的结合起来,本文还尝试了将两者在输入端进行层融以及循环 法特征更好的结合起来,本文还尝试了将两者在输入端进行层融以及循环 法特征更好的结合起来,本文还尝试了将两者在输入端进行层融以及循环 法特征更好的结合起来,本文还尝试了将两者在输入端进行层融以及循环 神经网络的隐层进行特征融合。验证,词向量作为初始 值再和原神经网络的隐层进行特征融合。验证,词向量作为初始 值再和原神经网络的隐层进行特征融合。验证,词向量作为初始 值再和原神经网络的隐层进行特征融合。验证,词向量作为初始 值再和原的词法特征在隐层进行融合,效果要优于其他方式。
(4)对比了线性回归、决策树模型随机 森林梯度渐进等传统)对比了线性回归、决策树模型随机 森林梯度渐进等传统)对比了线性回归、决策树模型随机 森林梯度渐进等传统)对比了线性回归、决策树模型随机 森林梯度渐进等传统)对比了线性回归、决策树模型随机 森林梯度渐进等传统)对比了线性回归、决策树模型随机 森林梯度渐进等传统)对比了线性回归、决策树模型随机 森林梯度渐进等传统器学习模型在时长预测中的效果。提出了用梯度渐进回归树行特征变换方法, 器学习模型在时长预测中的效果。提出了用梯度渐进回归树行特征变换方法, 器学习模型在时长预测中的效果。提出了用梯度渐进回归树行特征变换方法, 器学习模型在时长预测中的效果。提出了用梯度渐进回归树行特征变换方法, 再将变换后的特征作为循环神经网络 再将变换后的特征作为循环神经网络 的输入,以提升时长预测的 输入,以提升时长预测的 效果。经 验证,效果。经 验证,过梯度渐进回归树对原始特征行变换之后,只需要一层隐即可时长较 过梯度渐进回归树对原始特征行变换之后,只需要一层隐即可时长较 过梯度渐进回归树对原始特征行变换之后,只需要一层隐即可时长较 过梯度渐进回归树对原始特征行变换之后,只需要一层隐即可时长较 好的预测 估计 。最后进行了主客观评价, 结果表明。最后进行了主客观评价, 结果表明。最后进行了主客观评价, 结果表明新方法 解决了 解决了 传统 决策树 中过平均 的问题 ,并且在 ,并且在 主客观评测方面都改善了预效果,显著提高合成语音 主客观评测方面都改善了预效果,显著提高合成语音 主客观评测方面都改善了预效果,显著提高合成语音 音质。
英文摘要Prosody is the super-segmental feature of speech, and it can promote, compensate to express semantics and pragmatics, thus it plays an important role in spoken communication, which makes it become the research focus of speech language sciences and technologies. Prosodic speech synthesis system is also forecast an essential part, it is to generate the fundamental frequency, and other parameters of the premise of silence, the accuracy rate largely determines the naturalness of synthetic speech intelligibility even. This study focused on how to use the depth of learning methods to improve the prediction of rhythm, the length of the predicted effect. The main work includes the following aspects:
(1) Construction of a large-scale rhythm annotated corpus. In this paper, the tertiary structure --- prosodic word, prosodic phrase and intonation phrase to define the Chinese rhythm. Marked by more than a corpus of statistical analysis we found that there is a big organization Rhythm in freedom. Especially the intonation phrase, which was significantly lower than the consistency of rhythm and prosodic word phrases. And sound step, the number of syllables phrases levels were analyzed.
(2) Comparing the maximum entropy, decision trees, CRFs and other traditional machine learning models the effect of rhythm prediction. Proposed prediction based on neural network model cycles of rhythm method. After comparison of the different timing of the memory cell structure found influence Recurrent Neural Networks for different structures of rhythm predictable performance is not large, but this method is the more traditional model effects have improved significantly.
(3) In order to further enhance the consideration of rhythm more predictable results, this paper introduces a special word representation of the word vector features to complement the features of recurrent neural network. Proven, characterized in that the word vector prediction of rhythm, you can better adapt to recurrent neural network. To word lexical vector character and traditional features combine better, we also tried the two on the input side Feature Fusion and Neural Network in circulation hidden layer feature fusion. Proven, the word vector as the initial value of the neural network, and then the original lexical features integrated in the hidden layer, the effect is better than the other way.
(4) comparing the linear regression, decision trees, model tree, random forest, gradient gradual regression trees and other traditional machine learning model results when long forecast. Made with a gradient gradual regression tree feature transformation method, features and then transformed as a recurrent neural network input, to enhance the long-forecast results. Proven, through a gradual gradient after regression trees to transform the original features, just one hidden layer, it can be better for the duration of the forecast estimates. Finally, the objective and subjective evaluations, the results show that the new method to solve the traditional problem of decision tree over the average, and in terms of both subjective and objective evaluation of the effect of improving the forecast, significantly improves the quality of synthesized speech.
Keywords: Speech Synthesis, Prosody Prediction,Deep Learning,Word Embedding
GB/T 7714
丁星光. 基于深度学习的汉语音合成韵律预测[D]. 北京. 中国科学院研究生院,2016.
文件名称/大小 文献类型 版本类型 开放类型 使用许可
丁星光硕士论文.pdf(2303KB)学位论文 暂不开放CC BY-NC-SA请求全文
所有评论 (0)