CASIA OpenIR  > 毕业生  > 博士学位论文
社会化媒体中基于社区的数据挖掘及其应用
其他题名Research on Community-based Data Mining and Applications in Social Media
张旸
2013-05-28
学位类型工学博士
中文摘要社会化媒体(Social Media),是一种给予用户极大参与空间的新型在线媒体。它能极大的改变并丰富人们的上网及生活方式,因此关于社会化媒体数据的分析和挖掘是当今的一大研究热点。社区,特别是潜在的社区,作为社会化媒体中的一种天然组织,尽管也吸引了很多研究者的目光,但基于社区对社会化媒体进行系统分析的工作仍然很少。本文的主要工作即是,社会化媒体中基于社区的数据挖掘研究及其应用。 本文基于大规模真实的社会化媒体数据,对社会化媒体中基于社区的数据挖掘技术进行了探索和研究,涉及其中几个关键问题,包括社会化媒体中的社区发现、社区内的热点预测、社区内的影响力用户发现。论文的主要工作和贡献有: 第一,提出了基于用户兴趣及社交拓扑结构的社区发现算法。社会化媒体中的社区不仅依赖于用户间的社交关系,还与他们之间的兴趣密切相关,因此本文通过将兴趣和社交关系融合进行社区发现。本文首先利用社会化媒体中的各种内容和社交关系特征分析用户的兴趣,计算用户之间的兴趣相似度;然后,在融合用户兴趣的加权社交关系网络上进行随机游走,从而得到用户间的最终相似度,该相似度既考虑了用户的兴趣因素,也受到社交拓扑结构的影响;最后,本文采用经典的聚类方法以发现社区。实验结果表明,通过融合用户兴趣,社区发现的效果有所提高。 第二,研究了社区内的热点预测问题,并依此进行内容推荐。社区内的热点是指被一个社区内大量用户所转发分享的内容。本文提出了特征加权预测模型以预测社区内的热点。本文首先探讨了一系列影响用户转发行为的特征,包括消息自身特征,消息作者特征,社区特征以及相互关联特征,然后通过信息增益的方法分析了各特征的重要性,最后依各特征的重要性提出了特征加权机制,以使重要的特征能发挥更大的作用。实验结果表明,本文的特征加权模型能有效预测社区内的热点,并且通过预测社区内热点以进行内容推荐,效果优于基于全局和个人热点的内容推荐。 第三,探讨了如何发现社区内有影响力用户的问题,并依此进行好友推荐。首先,提出了阅读-转发模型,它通过一系列能表征用户间影响力的潜在因素,如用户发布内容的质量,用户的社会地位,用户间的“同质性”等,计算相邻用户间的直接影响力;其次,提出了多路径非线性阈值模型,通过模拟用户间的影响力在社会化媒体中的传播过程,计算任意两个用户间的影响力,并最终得到有影响力的用户。实验结果表明,本文提出的发现社区内影响力用户的算法效果优于以往算法,并且利用社区内的影响力用户进行好友推荐,其效果也优于基于全局影响力用户的好友推荐。 第四,设计了社会化媒体中基于社区的推荐系统原型。作为应用,论文在总结博士期间所做工作的基础上,设计了一套适用于社会化媒体的基于社区的推荐系统原型,并实现了其中的关键模块:基于社区的推荐引擎。该系统能够发现社会化媒体中潜在的社区,并在此基础上进行内容推荐和好友推荐。
英文摘要Social Media, as a new online media, has a great impact on people's daily life,so the study about social media is a hot subject of current research. Recently, as a natural structure in social media, the community has aroused many researchers' interests. In this paper, we focus on the community-based data mining and application in social media. This paper investigates the community-based data mining in social media based on large-scale real social media data. Following are the main contributions of our work: First, Community detection based on users interests and social topological network. Given that communities in social media are defined by social interactions and common interests among users, we discover the communities with user interests and social connections in consideration. First, we compute interest similarity between users leveraging kinds of textual and social features; Second, random walk is conducted on the interest-weighted social network to get the distance between users; Third, communities can be derived from clustering. Experimental results show that the performance gets better with user interests in consideration. Second, Popularity prediction in community and content recommendation. Popularity in community will get retweeted or shared by the major of members in the community, and feature-weighted model is proposed to predict popularity in communities. We present a set of features and measure their importance using information gain, then propose the feature-weighted mechanism hoping that important features can have a greater impact on classification. Experimental results show that the feature-weighted model has the best performance in popularity prediction. Third, Influencers identification in community and friend recommendation. First, in order to learn influence probability between two directly connected users, we propose the Read-Retweet Model, in which a set of underlying factors are investigated to characterize a user's reading and retweeting behavior. Second, we present Multi-Path Non-Linear Threshold Model to simulate the information propagation, with any possible diffusion paths in consideration. Experimental results show that our method has a best performance in the task of identifying influential users in community. Fourth, Prototype of community-based recommendation system in social media. We design a prototype of community-based recommendation system in social media and complete the community-based recommendation en...
关键词社会化媒体 社区 数据挖掘 热点预测 影响力用户 推荐系统原型 Social Media Community Data Mining Popularity Prediction Influential Users Recommendation System Prototype
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6528
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
张旸. 社会化媒体中基于社区的数据挖掘及其应用[D]. 中国科学院自动化研究所. 中国科学院大学,2013.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20101801462807(8386KB) 暂不开放CC BY-NC-SA
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[张旸]的文章
百度学术
百度学术中相似的文章
[张旸]的文章
必应学术
必应学术中相似的文章
[张旸]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。