CASIA OpenIR  > 毕业生  > 硕士学位论文
异构数据的聚类算法研究
其他题名The Research on Heterogeneous Data Clustering
刘琰琼
学位类型工学硕士
导师张文生
2010-05-23
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业计算机应用技术
关键词电阻网络 同构数据 异构数据 协同聚类 Resistive Network Homogeneous Data Heterogeneous Data Co-clustering
摘要随着信息技术和万维网的迅速发展,用户面对一个巨大、复杂并快速增长的信息空间,往往会感觉到“信息过载”。面对这样的问题,数据挖掘技术应运而生并帮助用户快速查找和获取有用的知识,其中聚类分析作为一种无监督的数据挖掘工具发挥着重要的作用。 传统聚类方法处理的是同构数据,然而随着用户对信息处理要求的提高和web的进一步使用,在同构数据上面衍生出了其他类型的数据。比如文本和单词数据、用户的网站浏览数据,用户查询日志数据以及用户评价数据等。在这些数据中包含了多种对象,其中包括用户、查询词,所点击浏览的页面、文本、单词等。并且这些对象不仅包含自身的性质,也同时与其他不同的对象之间存在多种关联关系,称之为异构数据或异构对象。传统聚类方法无法满足异构数据对象同时聚类的应用需求,并且聚类结果的准确率较低,标签可读性较差。因此本课题通过对异构对象的特性进行研究,进行数学建模,并提出新的异构对象协同聚类算法来解决异构数据同时聚类的问题。 本文首先介绍了聚类算法的基本理论和应用于同构数据中的经典算法,讨论各种算法的区别和优缺点。然后分析异构数据对象的特点,并对其应用进行讨论。传统同构数据聚类算法无法解决异构数据聚类问题,因此对异构数据的协同聚类算法进行研究,提出一种基于电阻网络的异构数据协同聚类算法。该算法将异构关联数据抽象为多部图形式的电阻网络,模拟电阻网络的电压电流特性对异构数据即进行特征计算,最后利用传统同构数据聚类算法对特征值进行聚类。在对异构数据进行协同聚类后,可以得到一种聚类结构,其中每一类包含多种异构数据,它们之间可以互为标签,标签可读性高。实验证明,该方法是一种切实可行且效果优异的数据聚类算法。
其他摘要With the rapid growth of information technology and World Wide Web, Web has became a very huge, complex and rapid growth information database, the users often feel “Information Overload”.Facing such question, the data mining techniques have been proposed, help user to combine the information retrieval and find useful knowledge. Clustering is one of the data mining tools which is unsupervised and play an important role. The traditional cluster methods focus on the homogeneous data, however though the higher information processing standards of users and the interaction between the users and the Web systems,the new data emerged.For example, the texts and words, the user browsing data, user query log data and opinion data.In these data, there contains many heterogeneous data objects,including user, query ,Web pages, texts and words. These objects not only have their own contents,but also their relationships with other different types.The traditional cluster methods can't meet the need of simultaneous clustering of heterogeneous data, the precious is low, and the readability of the labels is poor. So through the study of the features of the heterogeneous data, we build a model with mathematical resolution, and propose a new heterogeneous data mining method to resolve the problem of simultaneous clustering heterogeneous data. We first introduce the basic theories of clustering algorithm and the classic homogeneous data clustering algorithms, and then discuss the differences, relations and merit and demerit between the algorithms. The next, we analyze the features of the heterogeneous data and discuss the application. As the traditional cluster methods can't meet the need of simultaneous clustering of heterogeneous data. We present a co-clustering algorithm for heterogeneous data based on resistive network. In the algorithm, the heterogeneous related data is transformed into a resistive network with multi-part graph structure, simulation current/voltage characteristic of resistive network to continue the following computing of eigenvalue and clustering. After clustering, a clustering result structure can be obtained, that in the structure one class includes multiple heterogeneous data which can be each other's label, and the readability of the labels is high. Experiments prove that the data clustering algorithm is achievable and effective.
馆藏号XWLW1554
其他标识符200728017029218
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/7530
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
刘琰琼. 异构数据的聚类算法研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2010.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20072801702921(1080KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[刘琰琼]的文章
百度学术
百度学术中相似的文章
[刘琰琼]的文章
必应学术
必应学术中相似的文章
[刘琰琼]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。