CASIA OpenIR  > 毕业生  > 硕士学位论文
跨社交网络平台的用户身份映射研究
孙颂1,2
学位类型工学硕士
导师曾大军 ; 李秋丹
2018-05-27
学位授予单位中国科学院研究生院
学位授予地点北京
关键词在线社交网络 用户身份映射 跨社交网络 相似度度量 机器学习
摘要
随着网络技术的日益发展,在线社交网络平台如微博、Twitter、Facebook等,已经成为人们生活中不可缺少的一部分。人们在社交网络平台上分享大量信息,并且进行社交活动。研究表明,人们通常同时使用多个在线社交网络平台。在多个在线社交网络平台间进行用户身份映射研究,对于增强推荐系统效果和网络监管具有重要作用。所以,跨社交网络平台的用户身份映射已经成为了一个热门的研究方向。
现有工作主要存在用户信息利用不完整、框架及算法不灵活等问题。例如,现有研究工作仅仅利用用户信息中的文本信息,也有一些研究只针对社交网络中的结构信息。同时,很多研究的框架只能针对特定的情况,不能应对用户信息发生变化时的状况。针对这些问题,我们在已有工作的基础上,本文基于机器学习和文本挖掘等最新技术,提出了几种用户身份映射的新的研究方法。同时,针对在实验中数据集中存在的数据随时间变化和数据集字段不完整的问题,本文提出了对应的数据源优化算法。主要内容如下:
1.针对现有方法只考虑文本信息或结构信息,不能全面分析用户行为模式的问题,提出了基于结合文本与结构信息的跨平台用户身份映射方法。本研究基于包括用户名、位置信息、用户描述和好友网络的文本信息和结构信息的相似度度量,针对每一种用户信息,分析对比最适合的信息表示与相似度度量算法,并深入分析每一种用户信息在用户身份映射框架中的作用,完成跨平台用户身份映射。同时,提出了可供研究者调整信息权重的灵活框架,允许用户与系统进行交互。最后,在实际的数据集上,验证了用户身份映射框架的有效性。
2.提出了基于改进分类器模型的映射方法扩展研究。本研究使用word2vec、soundex算法、VMN算法等特征提取算法从用户名、用户位置信息、描述信息和好友网络等用户信息中提取特征。本研究将用户身份映射问题转化为二分类问题,使用逻辑回归、随机森林等机器学习和深度神经网络的方法,完成跨社交网络平台的用户身份映射研究。实验中使用使用F1值作为实验效果度量,在实际数据集上的实验结果验证了改进模型用户映射方法的有效性。
3.提出了面向动态异构用户信息优化身份映射的研究。用户在社交网络上的行为是动态的,所以用户信息也可能发生动态变化。因此,为了捕捉动态变化的用户信息及优化数据集中的缺失信息,本框架首先利用word2vec和DeepWalk将用户信息映射到低维空间,基于后期融合方法和相似度度量方法,整合不同的用户特征,对数据源进行补全和优化。在已有身份映射模型上进行的对比实验证明了,本框架能够及时补充与优化数据源,成功优化动态的用户数据源,提高身份映射模型的性能。
其他摘要
With the development of the Internet, online social networks (OSNs), such as Weibo, Twitter, Facebook, have become an indispensable part of our daily life. People share a vast amount of information and make social contacts on online social networks. Studies show that people usually participate in multiple online social networks simultaneously for various reasons. Performing user profile mapping on different online social networks is valuable for some cases like recommender system and network supervision, etc. Therefore, mapping users across multiple online social networks becomes a very important and challenging research topic.
There are many shortcomings in the existing works, like incomplete using of user information and inflexible frameworks and algorithms. Based on the latest technique of machine learning, deep learning and data mining, this paper focuses on developing several methods to mapping user profiles across online social networks. A new framework which aims to optimize the dataset used in user profile mapping is proposed simultaneously. The primary contents of this paper are carried out in the following three aspects:
1.We propose a method to mapping user profile across different online social networks using text information and structure information including username, location, description and friend network. We take advantage of similarity metric of these kinds of information and analyze the impacts of different kinds of information on user profile mapping. This research provides a flexible framework which allows users of the framework tuning the weights of different information. Experimental results verify the efficacy of the proposed framework.
2.We propose an improved method based on previous cross-OSNs user profile mapping framework. In this research, the user profile mapping problem is transferred into a binary classification problem. We use several algorithms to extract features from all kinds of information including username, location, description and friend network. After feature extraction, we employ several machine learning including logistic regression and random forest and deep neural networks algorithms on the dataset, and evaluate the results using F1-score as the metric. The experimental results on a real-world dataset demonstrate the efficacy of the proposed model.
3.We proposed a method to catch dynamic heterogeneous user data for cross-OSNs user profile mapping. A user's online behavior in a social network is dynamic. The user profile information may be changed due to some specific reasons such as user migration or job changes. Thus, catching the dynamics of evolutionary user data is important in user profile mapping researches. The framework firstly represents all text and structure information into low-dimensional latent space by utilizing word2vec and DeepWalk. Then, integrates different user features and predicts vacant data fields based on late fusion approach and cosine similarity computation. The results proved that our framework can successfully catch the dynamic user data and enhance the performance of identity linkage models by supplementing and updating data sources advance with the times.
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/21022
专题毕业生_硕士学位论文
作者单位1.中国科学院自动化研究所
2.中国科学院大学
推荐引用方式
GB/T 7714
孙颂. 跨社交网络平台的用户身份映射研究[D]. 北京. 中国科学院研究生院,2018.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
跨社交网络平台的用户身份映射研究.pdf(4113KB)学位论文 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[孙颂]的文章
百度学术
百度学术中相似的文章
[孙颂]的文章
必应学术
必应学术中相似的文章
[孙颂]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。