CASIA OpenIR  > 毕业生  > 博士学位论文
基于模型融合的音频分类与检索方法研究
其他题名model combination based audio classification and retrieval
胡鹏飞
学位类型工学博士
导师刘文举
2013-11-29
学位授予单位中国科学院大学
学位授予地点中国科学院自动化研究所
学位专业计算机应用技术
关键词音频分类 音频检索 特征分析 模型融合 主题建模 Audio Classification Audio Retrieval Feature Analysis Model Combination Topic Model
摘要多媒体技术以及网络技术的迅速发展,使得人们拥有和面对的多媒体信息的数据量急剧增多。伴随着近年来移动互联网的迅猛崛起,大数据时代的概念已愈来愈被人们所接受。如何从如此海量的数据中挖掘出对人们有用的信息,如何快速准确地检索出所需要的信息,已经成为人们迫切的需要。特别是随着语音技术在手机等智能终端上的成功运用,使人们对普通音频的感知和检索的需求也越来越大,因此对音频分类及检索的技术需求也更加迫切。 本文在认真总结了前人研究成果的基础上,对基于内容的音频分类检索中的若干问题进行了探讨。基于所选择的特征,着重对音频分类和检索的各种建模方法进行了详细分析,并从不同的角度,利用模型融合的方法,提出了新的系统框架和模型。进行的主要工作有: (1) 音频特征的提取与分析。由于模型的建立及融合需要基于音频的特征提取和选择,因此本文首先介绍了一些常用音频特征的提取方法,然后基于音频分类的实验效果选择后续声学建模所使用的特征集。 (2) 融合GMM与k近邻方法的音频分类。GMM模型是基于统计的方法,它在分类过程描述了类整体的统计特性,但掩盖了类内个体间的差异。k-近邻分类虽然能够捕捉到个体的信息,却失去了把握类别整体信息的能力。本文基于模型的自适应,提出了一种融合GMM与k-近邻分类的方法。新的方法兼顾类的共性与个体的差异性,取得较好的实验效果。 (3) 融合短时特征和长时特征建模的音频分类。音频特征既有基于帧提取的短时特征,也有通过长时分析得到的段特征。两种特征反应了音频不同尺度上的特性。现有的分类方法都是基于其中的一种特征分类。本文提出了一个融合短时特征和长时特征的分类框架。通过将短时建模的概率得分作为长时特征以及引入置信度判别,使得音频的各个尺度的信息在分类中得以充分利用,从而提高了分类效果。 (4) 融合直方图与LDA建模思想,基于Gaussian-LDA的音频检索。对于基于模板的音频检索,现有的直方图模型利用了短时特征在特征空间中的位置信息,将相似的短时特征聚为一类。但由于它使用了硬划分的矢量量化,导致了信息的丢失。以LDA为代表的主题模型则探索了短时单元在文件中共同出现的频率信息。由于LDA主要用于处理字词等离散单元,它在音频检索中的使用需要基于直方图的离散化过程,使其性能受到影响。本文中提出了一种融合了直方图模型与LDA两种建模思路的新主题模型Gaussian-LDA。Gaussian-LDA将LDA中主题对词的多项分布变为对音频特征的高斯分布。它在建模过程中,兼顾了短时单元在特征空间的位置信息和在文件中共存的特性,避免了直方图所导致的离散化,表现出了更好的检索性能。
其他摘要The rapid development of multimedia and network technology make people own and face more and more multimedia information.With the rapid rise of mobile Internet, the Big Data era has been coming. How to retrieve information effectively and efficiently from so vast data has become an urgent need. Especially with the successful use of speech technology in mobile phones and other intelligence terminals,the demand for audio perception and retrieval has been growing. This dissertation, which is based on the summarization of former research findings, deals with several problem of audio classification and audio retrieval. We analyze and compare the models based on the selected features, and propose several new frameworks to combine different models. The main research contents and results of this dissertation can be concluded as follows: (1) Feature extraction and analysis. Because acoustic modeling must be based on feature extraction and selection, this dissertation firstly introduces the extraction of some acoustic features, and then selects the feature set for the following work. (2) Combining GMM and k-NN for audio classification. Statistical methods such as GMM result in a loss of information that exists within individual training samples. Exemplar-based methods such as k-NN can utilize information about actual training examples without describe the global information of each class. this dissertation proposes a framework to combine GMM and k-NN based on model adaptation. The proposed framework takes both class and individual information into account and gets the better performance. (3) Combining frame-based and segmental models for audio classification. Either frame-based or segmental features have been applied for audio classification. These two kinds of features describe characteristics at different levels. We propose a two-stage framework to combine modeling in these two levels. First,GMM are built based on short-term features and preclassification are performed. Then, in the event that the GMMs are not certain about the result, the system engages SVMs for refining the output hypothesis. In the latter stage, the features are combined by taking posterior estimates of GMMs along with segmental features as SVMs’ input features. Experiments on the sound dataset indicate that the proposed framework makes an improvement over the traditional methods. (4) Combining histogram and LDA modeling for audio retrieval. For the task of query by example, the hist...
馆藏号XWLW1957
其他标识符201018014629086
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6569
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
胡鹏飞. 基于模型融合的音频分类与检索方法研究[D]. 中国科学院自动化研究所. 中国科学院大学,2013.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20101801462908(4987KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[胡鹏飞]的文章
百度学术
百度学术中相似的文章
[胡鹏飞]的文章
必应学术
必应学术中相似的文章
[胡鹏飞]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。