CASIA OpenIR  > 毕业生  > 博士学位论文
基于信息论与稀疏性的特征选择算法研究
彭涵阳
学位类型工学博士
导师刘成林 研究员 ; 勇研究员
2017-05
学位授予单位中国科学院研究生院
学位授予地点北京
关键词信息论 特征选择 稀疏 合页损失 非凸非光滑优化技术
摘要
随着计算机技术在社会各领域的深入渗透,数据正在加速迅猛累积。如何从这些海量数据中挖掘出潜在的有价值信息是现在面临的重要挑战。大规模数据的一个重要体现就是描述数据的特征维度极高,但是这些特征的很大一部分都是冗余或噪声特征。这些冗余和噪声不但将造成存储资源的大量浪费,而且还会降低挖掘学习算法的运行效率。更严重的是,它们还会将真正有价值的信息湮没从而恶化学习算法的性能。特征选择正是在这种情况下应运而生。特征选择就是尽量保持本质信息不受损或少受损的前提下,从纷繁芜杂的原始特征集合中选出一个较为精简的子集。
 
本文分别将会从信息论和稀疏诱导的角度,围绕从原始数据中祛除冗余噪声特征选择精简特征子集这一目标,开展一系列具体而深入的特征选择的研究工作。本文的主要贡献和创新如下:
 
1) 从信息论的基本概念出发,发现了 Fano 不等式之外另一种全新的 Bayes 错误率和关于特征与类别的互信息量的关系。为现有的由不同启发式准则发展出的基于信息论的算法建立了一个统一的理论框架。在此框架内,受 Occam 剃刀原理启发提出一种新的基于信息论的特征选择算法。该算法还可以通过嵌入一个插件用于辨别冗余和噪声特征以更好地进行特征选择。该算法的有效性在实验中得到了充分的验证。
 
2) 受稀疏表示和支持向量机的启发,提出了一种基于不等式约束的 l_{2,p} 范数 (0
 
3) 提出一种建立在 l_{2,r} 范数 (0
 
4) 提出了一种建立在新的合页损失和 l_{2,p} 范数 (0
其他摘要
With computerization increasingly penetrating into various social sectors,  data in these sectors is accumulated with accelerated rate. How to exploit the underlying valuable information from  "big data" is a great challenge. Large-scale data is commonly highly dimensional. Actually, there are various redundant and noisy features in the data. The redundancy and noise not only waste  storage resources, but also lower the running efficiency of leaning models.  More seriously, The redundancy and noise may inundate the useful information and deteriorate the performance of learning models. Feature selection approaches is proposed to address these problems, which is the process of selecting a compact subset form original full features of data with total or most of intrinsic information conserved.
 
In this dissertation, from the perspective of information theory and sparsity,  we carry out a series of specific and insightful researches for feature selection, which are focused on the target that removing redundant and noisy features and select a compact feature subset. The main novelties and contributions are list as follow:
 
 
1) Based on information theory, we discovered a new relationship of Bayesian error and the mutual information between features and class labels, except of Fano's Inequality. We constructed a unified framework for existing popular information theoretical methods based on heuristic. Inspired by the principle of Occam's Razor, we proposed a new information theory based feature selection approach. Another advantage of the proposed method is that it could integrate a plug-in component to distinguish redundant features and noisy features. The encouraged experimental results indicates the validity of the proposed method.
 
2) Motivated by sparsity representation and support vector machine(SVM), we proposed a feature selection medel that is built on l_{2,p}-norm (0
 
3) We proposed a general sparsity regularized feature selection model that is built on a l_{2,r}-norm (0
 
4) We proposed a feature selection model that is built upon a new extended hinge loss and a l_{2,p}-norm (0
 
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/14835
专题毕业生_博士学位论文
作者单位中国科学院自动化研究所
推荐引用方式
GB/T 7714
彭涵阳. 基于信息论与稀疏性的特征选择算法研究[D]. 北京. 中国科学院研究生院,2017.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
dissertation.pdf(3743KB)学位论文 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[彭涵阳]的文章
百度学术
百度学术中相似的文章
[彭涵阳]的文章
必应学术
必应学术中相似的文章
[彭涵阳]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。