CASIA OpenIR  > 毕业生  > 博士学位论文
基于深度神经网络的语音识别技术及应用
其他题名Research on DNN-based speech recognition and its application
范利春
学位类型工学博士
导师徐波
2014-05-27
学位授予单位中国科学院大学
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词大词汇量连续语音识别 深度神经网络 鲁棒语音特征 局部连接的深度神经网络 多语言混合识别 关键词检测 Large Vocabulary Continue Speech Recognition (Lvcsr) Deep Neural Network (Dnn) Robust Speech Feature Partially Connected Dnn Mixed-language Speech Recognition Spoken Term Detection (Std)
摘要随着深度神经网络的发展和广泛应用,语音识别的准确率出现了阶跃式的增长。以深度神经网络为基础的CD-DNN-HMM框架取代了传统的以高斯混合模型为基础的GMM-HMM框架,成为语音识别系统的基本配置。语音识别性能的提升促进了语音识别技术在移动互联网终端设备上的普及和应用,同时更多的应用需求也加快了基于深度神经网络的语音识别技术发展。研究深度神经网络的特征提取技术和模型构建技术,可以提升基于深度神经网络的语音识别系统性能;而对基于深度神经网络的语音识别系统应用研究,则可以为语音识别技术走向更广泛的应用打下良好基础。本文的主要研究工作归纳如下: 1.提出了一种噪声鲁棒的语音特征PNPLP,为噪声环境下的语音识别提供了更好的解决方案。 本文针对噪声环境下的鲁棒语音识别问题,提出了一种基于PLP的改进语音特征提取方法。这种特征提取方法增加了基于中等时长的噪声抑制模块,能够减轻环境噪声对语音识别的影响。另外,通过修改听感曲线和归一化方法,该特征降低了噪声抑制模块对纯净语音识别带来的性能损失。实验证明,本文所提的特征提取方法在基于高斯混合模型和基于深度神经网络模型的语音识别系统中都表现出了良好的抗噪能力。针对深度神经网络的框架结构,本文对多种语音特征进行了对比,指出了滤波器组特征能够在深度神经网络中获取比传统特征更好的准确率。此外,本文对深度神经网络自身的特征提取能力进行了分析,为深度神经网络的进一步研究和应用奠定了基础。 2.提出了一种局部连接的深度神经网络模型,改善了噪声环境下基于深度神经网络的语音识别性能。 本文分析了频域范围内噪声对语音信号的影响,并根据深度神经网络的结构特点和特征提取能力,提出了局部连接的深度神经网络模型。该模型将底层的神经网络分为多个互不相连的单独结构,能够针对不同频带中的噪声进行单独的抑制;而高层的神经网络则是全连接,以获取全局的最优特征。实验证明,本文所提的局部连接深度神经网络模型有效提高了噪声环境下的语音识别性能。本文利用部分频带对含噪的语音进行识别,结论指出,将含噪通道作为丢失特征会损失语音识别性能。此外,本文还对鲁棒玻尔兹曼机进行了探索和研究,提出将其应用到语音识别中的设计方案。 3.建立了中英文混合语音识别系统,提出了音子集完全映射的方法,为多语言混合系统的快速搭建提供了解决方案。 本文对语音识别在应用中遇到的多语言混合识别问题进行了分析,并对多语言混合语音识别系统进行了调研。在此基础上,利用深度神经网络在多语言建模中的优势,搭建了中英文混合语音识别系统。该系统采用了三种不同的音子集构建方式,实现了中英文混合识别的目标。其中音子集完全映射的方法无需重新训练声学模型,能够实现多语言混合语音识别系统的快速搭建。此外,本文通过实验分析了不同音子集的构建方法以及数据集的分布对多语言混合语音识别系统性能的影响,为提高多语言混合语音识别系统的性能奠定基础。 4.提出了基于高斯混合模型和深度神经网络的双重检索框架,将深度神经网络应用到关键词检...
其他摘要In recent years, a major advance has been made in large vocabulary continue speech recognition (LVCSR) with the development of deep neural network (DNN). Due to the outstanding performance of DNN in acoustic modeling, CDDNN-HMM gradually replaces GMM-HMM being used as the preferred configuration. The developments of speech recognition technologies promote the popularization and application of LVCSR in mobile internet terminal equipments. The demands for more applications of LVCSR accelerate the developments of DNNbased speech recognition technologies. Under the framework of CD-DNN-HMM, this thesis investigates different speech features and model structures in order to improve the performance of DNN-based speech recognition system. Meanwhile, the dissertations also try to apply the DNN-based speech recognition technologies to mixed-language recognition task and spoken term detection (STD) task. The main contributions of this thesis are summarized as follows: 1. A new feature extraction algorithm for noise robust speech recognition is proposed. To improve the performances of speech recognition under noisy environments, a new feature extraction algorithm based on PLP feature is proposed. This feature extraction algorithm contains a medium-time based noise suppression module, which can reduce the negative effects of noise on speech recognition. By modifying the hearing curve and normalization method, the feature can reduce the speech recognition performance loss brought by noise suppression module. Experimental results show that the proposed feature extraction algorithm improves both GMM-based and DNN-based speech recognition system performance remarkably in noisy environments. In this thesis we also investigate different types of input features for DNN by comparing recognition rates. It can be concluded that log filter-bank features are the most suitable features for DNN. 2. A partially connected DNN model is proposed. This model improves the performance of speech recognition under noisy environments. By analyzing the impacts of noise in frequency domain, this thesis proposes a partially connected DNN model according to the characteristics and features extraction abilities of DNN. The model has several partially connected layers which can suppress noise in different frequency bands. Experimental results show that the partially connected network can suppress noises in different frequency bands properly. In order to recognize the speech data which has b...
馆藏号XWLW2008
其他标识符201118014628034
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6621
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
范利春. 基于深度神经网络的语音识别技术及应用[D]. 中国科学院自动化研究所. 中国科学院大学,2014.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20111801462803(4420KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[范利春]的文章
百度学术
百度学术中相似的文章
[范利春]的文章
必应学术
必应学术中相似的文章
[范利春]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。