CASIA OpenIR  > 毕业生  > 博士学位论文
多语言语种识别技术的研究
其他题名Research on Multilingual Language Identification Technology
姜洪臣
学位类型工学博士
导师徐波
2007-02-14
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词多语言语种识别 音频分类 支持向量机 高斯混合模型-全局背景模型 识别置信度 Multilingual Language Identification Audio Classification Svm Gmm-ubm Recognition Confidence Measure
摘要多语言语种识别(LID)技术在多语种语音信息服务,多语言语音识别系统、多语言语音翻译系统和多语种广播节目监控系统中都起着很重要的作用。本文面向多语种广播节目监控的实际应用,在语种识别的预处理、语种识别及其置信度技术和语种识别系统的具体实现上做了大量的研究工作。 首先,在语种识别的预处理方面,本文研究了如何去除真实音频信号中的音乐和噪声等非语音成分以提高语种识别的性能。结合曲线观察和性能分析,对16种音频特征区分不同两种音频类型的有效性进行了详细分析,在此基础上提出了一种基于支持向量机的音频分类方法。该方法首先基于能量门限,把音频信号分成静音段和非静音段,然后借助SVM分类器,把非静音段进一步分成纯语音、非纯语音、音乐、环境音4种类型。同传统的GMM和KNN方法相比,实验结果表明该方法具有更加优越的性能。 其次,本文研究了高斯混合模型在语种识别中的应用,主要包括特征提取、模型自适应和分类判决等问题,其中特征方面使用移动差分倒谱(Shifted Delta Cepstrum,SDC)特征代替传统的MFCC特征,分类判决方面使用混合高斯后端(Gaussian Backend,GBE)分类器,由于SDC特征包含更长的差分特征信息,而GBE分类器带有线性判别分析(Linear Discriminant Analysis,LDA)模块以进一步区分模型得分,从而可以显著提高系统的识别性能。 再次,本文将统计学习理论中的支持向量机建模方法引入到语种识别中,研究了大样本情况下SVM用于语种识别的区分性训练问题。通过使用多项式映射、最小均方误差准则算法和广义线性判别序列核函数,不仅大大减少了训练样本的数目,而且使得训练样本具有较强的区分性,从而保证系统具有较高的识别率同时,训练和识别速度大大提高。在此基础上,本文研究了辨别模型的语种识别置信度问题,提出了一种基于SVM模型得分Sigmoid变换的识别置信度方法。最后本文通过使用GBE分类器,把SVM识别系统、GMM-UBM识别系统和PPRLM识别系统在得分层次上进行融合,在OGI-TS数据集和NIST评测集上都取得了较高的系统性能。 最后,本文在详细分析多语种广播音频信号特点的基础上,把语种识别技术和固定音频检索技术相结合,设计并实现了一个面向多语种广播节目监控的语种识别系统。该系统应用了音频分类技术、语音质量评估技术、固定音频检索技术、消除噪声技术、语种识别技术和识别置信度量等多项技术。实验结果表明,该系统不仅具有实时的处理速度,而且具有可靠的识别性能,可广泛应用于广播、电视、电话以及互联网的音频内容实时监控与管理行业。
其他摘要With the global economic community expands, multilingual language identification (LID) plays an increasingly important role in speech information services for non-native speakers. LID can also serve as a front-end for a multilingual speech recognition system and a multilingual speech translation system. Orienting to real-time monitoring application of multilingual broadcast programs, this paper presents the recent progress obtained in the effort to research on multilingual LID technology including audio classification, language recognition confidence measure. Firstly, we make an investigation on separating nonspeech signals from real audio stream to improve LID performance. A novel SVM-based method for broadcast audio signals classification is proposed. By this method, the audio stream is first classified into silence and non-silence segments using an energy threshold. Then SVM classifiers are employed to classify those non-silence segments into four audio types, namely pure speech, non-pure speech, environment sound and music. Compared with the traditional methods such as GMM and KNN, our experimental results show that this method exhibits better classification performance and more robustness. Secondly, we study GMM-UBM method in application to LID. In our work, we extract shifted delta cepstrum (SDC) coefficients instead of MFCC for feature extraction and use Gaussian backend (GBE) classifiers to replace pick max for score decision. Because SDC coefficients comprise of more delta cepstrum and GBE classifiers comprise of LDA module to further distinguish different model scores, this method can achieve better identification accuracy. Thirdly, we introduce support vector machine (SVM) into LID application and examine the problem of discriminative training for SVM in large training data, This approach adopts polynomial expansion technique, minimum Mean Squared Error (MSE) discriminative training algorithm and Generalized Linear Discriminant Sequence (GLDS) kernel to train SVM classifiers for language classification. In addition, we research the recognition confidence for discriminative models and propose a method of recognition confidence measure using sigmoid transformation to SVM model scores. By using GBE classifiers to combine the scores of GMM-UBM method, SVM method with PPRLM method, we achieve superior performance on the OGI-TS corpora and NIST LRE data. Finally, we integrate the techniques of language identification and fast audio retrieval, and design a LID system used to real-time monitor multilingual broadcast programs. This system employs many techniques such as audio classification, signal quality evaluation, audio retrieval, noise reduction, language identification and recognition confidence measure etc. to process mass data from broadcast programs.
馆藏号XWLW1046
其他标识符200218014603207
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/5960
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
姜洪臣. 多语言语种识别技术的研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2007.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20021801460320(1145KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[姜洪臣]的文章
百度学术
百度学术中相似的文章
[姜洪臣]的文章
必应学术
必应学术中相似的文章
[姜洪臣]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。