CASIA OpenIR  > 毕业生  > 博士学位论文
社交网络中新闻挖掘的关键技术研究
其他题名Research on News Mining in Social-networking Service
路荣
2012-05-26
学位类型工学博士
中文摘要社交网络,即社交网络服务(Social Networking Services,简记SNS),它是以一定社会关系或共同兴趣为纽带、以各种形式为在线聚合的用户提供沟通、交互服务的互联网应用。在社交网络服务中,信息获取更加多元化,信息传播速度更快范围更广。而新闻信息,作为社交网络中流动的最重要的一类信息,如何对它进行挖掘分析, 已经引起了研究人员的关注。 本文基于大规模真实的社交网络数据,对社交网络中新闻事件的挖掘进行了较深入的研究。涉及其中几个关键问题,包括新闻事件的回顾检测,新闻事件的在线实时检测与跟踪,新闻事件和话题的趋势分析。论文的主要工作和贡献有: 提出了社交网络中新闻事件回顾检测的算法框架。回顾检测是对过去已有的数据进行回顾,然后检测出其中的新闻事件。以往的回顾检测研究都是针对新闻数据集,而本文面对的是社交网络中用户发布的数据,这样的数据集中有大量的非新闻相关的数据。所以,本文首先用LDA模型对数据集建模,并在此基础上提出词义单元的概念;然后根据新闻事件的特点,通过观察词义单元在不同时间段的频率变化,进而实现从海量的社交网络数据中过滤出最有可能和新闻信息相关的数据。最后用一种两层的混合聚类方法,检测出其中的新闻事件。实验结果表明整个算法框架简单有效。 提出了社交网络中新闻事件在线检测与跟踪算法。在线检测与跟踪要求能即时的处理数据,并快速给出结果。传统研究多采用单遍历聚类算法,但该算法对所有不同的新闻事件或同一新闻事件处于不同状态时都做相同处理:即给定一个不变的阈值和生命长度。这样的做法并不合理。因此,本文提出了基于能量函数的改进单遍历聚类算法。首先用能量函数对新闻事件的生命过程建模。能量值表示了新闻事件在社交网络中的相对活跃度,同时它还随时间变化,因而能反映出同一新闻事件不同时期的相对活跃情况。然后本文基于能量函数改进原始的单遍历聚类算法,使它能对不同状态的新闻事件做出不同的处理。实验结果表明,该方法以极小的时间代价换取了准确率和召回率的双重提升,并且这种时间代价并不影响算法的实时性。 提出了对社交网络中新闻发展趋势的预测和分析的方法。首先,本文基于MACD指标定义了趋势动量,来对社交网络中新闻事件或话题的未来发展趋势进行预测。MACD是对金融产品的价格趋势进行预测的常用指标。基于MACD定义的趋势动量能很好的反映社交网络中新闻事件或话题的发展趋势的内在动向。然后本文将新闻的趋势发展分为不同的状态,将趋势预测问题进一步抽象为对新闻的趋势状态转换的判断问题。趋势动量配合一些简单的规则可以很好地解决该问题。更进一步看,新闻的趋势变化通常是有原因的。所以,本文又提出并分析了引起新闻趋势变化的几种可能原因。最后本文基于趋势动量,还提出一种新闻话题排序方法,该排序方法能够兼顾当前话题热度和它未来可能的发展趋势。实验证明本文提出的趋势预测方法准确有效,且对趋势变化原因的推测和新闻话题排序方法也是可靠的。 设计一种新的适用于社交网络的,新闻挖掘原型系统。本文设计了一个社交网络中新闻事件挖掘的原型系统,...
英文摘要Social-networking service (SNS) is a very popular internet application, which not only connects the web users based on their real social relations or their common interests, but also provides on-line communication and interactive functions. In this service, information acquisition becomes more diversified, and information diffuses much faster and more widely than ever before. In all kinds of information that flows in SNS platform, news is one of the most important information. Mining news information in SNS platform has already attracted attention of the researchers. In this thesis, we investigate several key problems of news mining based on a large-scale dataset from real social-networking service. Following are the main contributions of this paper: Retrospective news event detection: Retrospective detection is to detect news events based on looking backward the existing news data. The previous studies of this problem mainly dealt with the clean news data. However, the SNS dataset we use is very noisy. It contains many other kinds of information not just the news. So, a novel framework is described to solve this problem. First, we use LDA to model the dataset. Then, the concept of word-meaning unit is proposed. After that, we monitor the frequencies of every word-meaning unit in different time slices, and filter out the most news-related data according to the characteristic of news event. Finally, a two-level hybrid clustering algorithm is used to group the filtered-out data into different news events. Experimental results show that the framework is very simple and effective. On-line news event detection and tracking: On-line detection and tracking should process the data stream in real-time. Traditionally, single-pass clustering method is used to solve this problem. However, the original single-pass clustering method treats all different news events in the same way, with a fixed threshold and a constant life span. Obviously, it is not very reasonable. So, we first propose an energy function, which is used to model the life cycle of a news event, and its value indicates the relative-hotness of a news event. Then, we improve the original single-pass clustering method based on the energy function. Experimental results show that the proposed method improves both the precision and recall with a very little extra time-cost. However it still satisfies the real-time demands. Trends analyzing of news events and topics: First,...
关键词社交网络 检测与跟踪 趋势预测 能量函数 趋势动量 Sns Detection And Tracking Trend Prediction Energy Function Trend Momentum
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6422
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
路荣. 社交网络中新闻挖掘的关键技术研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2012.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
200918014628038路荣.pd(6544KB) 暂不开放CC BY-NC-SA
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[路荣]的文章
百度学术
百度学术中相似的文章
[路荣]的文章
必应学术
必应学术中相似的文章
[路荣]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。