CASIA OpenIR  > 毕业生  > 博士学位论文
社交媒体中用户建模的关键技术研究
其他题名research on user modeling in social media
许志恒
学位类型工学博士
导师杨青
2013-05-28
学位授予单位中国科学院大学
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词社交媒体 用户建模 Twitter 个性化推荐 转发预测 行为建模 主题模型 Social Media User Modeling Twitter Personalized Recommendatioin Retweet Prediction Behavior Modeling Topic Models
摘要伴随着社交媒体的快速发展,信息过载已经成为社交媒体中的重要问题。面对每天大量更新的信息流,用户往往难以快速的发现令自己感兴趣的内容。因此,如何更好的分析和理解用户,帮助用户进行信息过滤以及兴趣发现,已经成为了社交媒体的主要任务和挑战。良好的用户建模,便是其中的重要技术之一。 本文主要针对微博,当前最为典型和热门的社交媒体类型进行研究。我们基于大规模真实的微博用户数据,对社交媒体中用户建模的相关研究问题进行深入分析与讨论,包括用户兴趣挖掘、用户发布行为建模、用户转发行为分析以及用户意图识别。论文的主要工作和贡献有: 1. 提出了用户兴趣相关的隐主题模型,对用户的兴趣进行隐主题建模。社交媒体中已有的一些用户兴趣建模工作,大多数都是基于bag-of-words的假设,对用户发布内容进行收集,然后提取出其中的关键信息,如关键词、实体名词、标签及隐主题分布等,作为用户的兴趣模型。先前的工作,对于用户发布的所有内容都同等对待。然而用户发布的内容,并非都与其兴趣相关,尤其是在社交媒体这种噪声很大的平台上。基于经典的作者-主题模型,我们提出了用户兴趣相关的隐主题模型,对用户兴趣进行建模。通过引入隐式兴趣相关变量,我们尝试在作者-主题模型迭代过程中,去除与用户兴趣无关的噪声微博,以达到更好的兴趣建模效果。 2. 针对用户的发布行为进行建模。用户发布内容是社交媒体中最重要的组成元素,然而很少有工作针对用户的发布行为进行研究,尤其是从个体用户的角度出发。受到早先社交媒体中用户分析的相关工作的启发,我们假设用户的发布行为主要受到热点新闻分布、好友内容分布和自身兴趣分布三个因素的影响。基于文本建模领域经典的混合分布模型,我们提出了用户发布行为混合模型。为了对模型参数进行更好的推断,我们借用当前社交媒体研究领域中热点新闻提取和好友影响力计算的相关工作,对热点新闻分布和好友内容分布进行计算,继而通过经典的吉布斯采样方法,对模型的其余参数进行推导。实验表明我们的模型比现有的一些用户建模工作有一定的优势。 3. 从个体用户的角度出发对用户转发行为进行分析。转发是社交媒体中最为重要的用户行为,它不仅仅是社交媒体中信息传播的主要途径,更是用户兴趣和信息需求的重要体现。早先的转发预测相关工作,都是从全局的角度出发,预测一条微博是否会被任意的用户转发。我们在全局转发预测模型的基础上,结合个性化用户特征和内容特征,提出了基于个体用户的转发预测模型,以预测某条微博是否会被特定的用户转发。通过特征重要性分析,我们重点讨论了各特征对用户转发行为的影响,并找出与用户转发行为密切相关的重要因素。最后,在个体用户转发预测模型的基础上,我们模拟了一个社交媒体中的内容推荐系统,并取得了较好的推荐精度。 4. 对用户意图进行识别。用户建模相关工作的前提,就是针对实际的用户进行建模。然而,社交媒体的迅猛发展,带来了巨大的潜在商业价值,因此吸引了大量具有商业意图的用户,例如广告商、内容发布者、组织群体和垃圾用户等。针对这些用户的建模意义并不大...
其他摘要With the rising popularity of social media, information overload has become a serious problem. Users are easily overwhelmed by huge amount of information disseminated daily through their social friends, and thus might feel difficult to find useful information. To help users discover interesting content from the overwhelming information streams, a better user modeling strategy is needed. This thesis focuses on several key problems of user modeling on Twitter, one of the most successful social media platforms. The main contributions of our work include: 1. We propose an interest-related latent topic model to represent user interest over latent topics. Traditional user modeling frameworks on social media simply build a bag-of-words profile for each user based on his posts, and try to extract important information from this profile, such as key words, entities, categories or latent topics, to represent user interest. However, since a lot of tweets do not necessarily indicate user interest on social media, previous works fail to capture the real motivation of tweets and thus easily suffer from the large amount of interest-unrelated posts. We propose a modified author-topic model by introducing a latent variable to indicate whether a tweet is related to its author’s interest. By ruling out those tweets which do not represent user interest, our model can reach a better modeling of user interest on social media. 2. We present a novel mixture framework to model user posting behavior on social media. While user generated content is the basic element of social media websites, relatively few studies have systematically analyzed the motivation to create and share content, especially from the perspective of a common user. Inspired by those early works about user behavior on social media, we assume that user posting behavior is mainly influenced by three factors: breaking news, posts from social friends and user interest. By borrowing the idea from research area of text mining, we use a mixture model to represent user posting behavior, and present the inference of our model based on collapsed Gibbs sampling. Experiments show that our model outperforms the state-of-the-art user modeling frameworks. 3. Analyzing individual retweet behavior on social media. Retweet is not only the key mechanism for information diffusion on social media, but can also be viewed as an important signal of user interest and needs. While previous works about analyzing retweet have mainly...
馆藏号XWLW1876
其他标识符201018014628067
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6527
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
许志恒. 社交媒体中用户建模的关键技术研究[D]. 中国科学院自动化研究所. 中国科学院大学,2013.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20101801462806(4458KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[许志恒]的文章
百度学术
百度学术中相似的文章
[许志恒]的文章
必应学术
必应学术中相似的文章
[许志恒]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。