CASIA OpenIR  > 毕业生  > 博士学位论文
基于子空间的多视角学习方法研究
其他题名Research on Subspace-based Multi-view Learning
蒋瑜
学位类型工学博士
导师卢汉清
2014-05-27
学位授予单位中国科学院大学
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词多视角学习 子空间学习 概率潜在语义分析 狄里克莱分布 非负矩阵分解 协同过滤 Multi-view Learning Subspace Learning Probabilistic Latent Semantic Analysis Latent Dirichlet Allocation Nonnegtive Matrix Factorization Collaborative Filtering
摘要大数据时代,数据的采集方式更为多样化,数据的表征形态更为多元化,因而观察对象往往可以被不同的特征表征,学术界称之为多视角数据。例如,在图像处理问题中,图像可以用反映图像的整体特性的全局特征表示,也可以用基于图像显著区域或关键点的局部特征表示。为了更好利用多视角数据的丰富信息,多视角学习应运而生,并很快成为机器学习领域一个研究热点。 子空间学习旨在将高维特征的数据映射到一个低维子空间,并保持数据特定的统计特性,可以有效缓解所谓的维数灾难问题。但在面临多视角数据的处理时,许多经典子空间学习方法诸如主题模型、矩阵分解等,都忽略了多视角数据本身蕴含的内在关联属性,无法对多视角数据实现有效的处理。 本文就基于子空间的多视角学习方法展开了深入研究。不同于经典的子空间学习将数据从一个高维原始特征空间映射到一个低维子空间,基于子空间的多视角学习试图从多个高维原始特征空间发现一个统一的低维子空间,从而获得蕴含多视角信息的统一特征表达。基于子空间的多视角学习不仅保留了子空间学习有效缓解维数灾难的特点,而且实现了对多视角数据的充分利用。本文首先深入讨论了两种多视角内在关联属性,即一致性和互补性。这两种属性是多视角学习有效性的根本保障。在此基础上,本文在无监督条件和半监督条件下,挖掘多视角的一致性和互补性,提出了若干有效的基于子空间多视角学习方法。此外,本文将多视角学习思想推广应用到了一类拟多视角学习问题。本文主要贡献包括以下几个方面: 1. 本文在概率潜在语义分析的框架下基于互正则化思想提出了两种无监督多视角学习方法:基于主题互正则化的概率潜在语义分析和基于样本对互正则化的概率潜在语义分析。这两种方法均基于多视角一致性,但其互正则化项基于完全不同的原则。前者基于不同视角潜在主题一致原则,后者基于样本对相似度一致原则。这两种方法可以有效地对高维多视角数据进行降维,并在真实数据集上提升了的多视角聚类实验的性能。 2. 本文在无监督条件下,提出了一种贝叶斯生成式模型,多视角潜在狄里克莱算法。该方法将潜在语义主题空间划分为多视角共享部分和各个视角私有部分,并通过一个伯努利过程来确定文档中的词汇是由共享主题还是视角私有主题生成。多视角潜在狄里克莱算法通过探索多视角一致性和互补性,可以获得多视角特征一个全面的低维表示,其有效性在真实数据集上聚类和分类任务中得到了验证。 3. 本文将非负矩阵分解推广到多视角学习领域,提出了两种半监督多视角学习方法:统一潜在因子学习和部分共享潜在因子学习。前者仅考虑了一致性,后者同时考虑了一致性和互补性,是包含前者的更一般形式。这两种方法在保留非负矩阵分解基于局部表示的特性基础上,可以有效发现多视角数据潜在结构,而且通过回归正则化项将部分标注样本的监督信息融入到了子空间表示中。真实数据集上的实验验证了两者的有效性。 4. 本文借鉴多视角学习思想,针对一类拟多视角学习问题,基于子空间的评分预测问题,提出了两种有效算法:所谓的TCRec方法将外界辅助信息融入到用户子空间和产品子空间...
其他摘要In the big data era, manners for data collection are more diverse, and forms of data representation are more various. Thus, the object of observation usually could be represented by different features, which is named as multi-view data by academic community. For example, image could be described by both global feature and local feature. The former reflects the overall character of the image, while the latter is based on significant areas or key points of the image. In order to exploit the rich embedded information among the multiple views, multiview learning emerges at the right moment and becomes a hot topic in machine learning field. Subspace learning aims to map the data from a high-dimensional original feature space into a low-dimensional subspace, and maintain some certain statistic characters at the same time, which could alleviate curse of dimensionality effectively. However, many classic subspace learning methods, such as topic model, matrix factorization, always ignore the internal attributes among multiple views, and cannot handle the multi-view data well. This paper focuses on subspace-based multi-view learning. Different from classic subspace learning, which transforms data from one high-dimensional original space into one low-dimensional subspace, subspace-based multi-view learning tries to discover a unified low-dimensional subspace from multiple highdimensional original spaces and obtain a unified feature representation which embeds multi-view information. Subspace-based multi-view learning, on one hand keeps the advantage of subspace learning that it could alleviate curse of dimensionality effectively, on the other hand, it could make full use of the multiview data. This paper firstly discusses two kinds of multi-view internal attributes, i.e., consistency and complementarity, which ensure the effectiveness of multi-view learning. And then, under the unsupervised and semi-supervised conditions, this paper exploits consistency and complementarity, and proposes some effective subspace-based multi-view learning methods. In addition, this paper also applies the thoughts of multi-view learning into a type of quasi-multi-view learning problem. Main contributions of this paper are summarized as follows: 1. This paper proposes two kinds of unsupervised multi-view learning methods in the frame of probabilistic latent semantic analysis with co-regularization idea, i.e., topic-based co-regularied probabilistic latent semantic analysis and pair-bas...
馆藏号XWLW2012
其他标识符201118014628041
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6612
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
蒋瑜. 基于子空间的多视角学习方法研究[D]. 中国科学院自动化研究所. 中国科学院大学,2014.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20111801462804(17239KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[蒋瑜]的文章
百度学术
百度学术中相似的文章
[蒋瑜]的文章
必应学术
必应学术中相似的文章
[蒋瑜]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。