CASIA OpenIR  > 毕业生  > 博士学位论文
社区问答系统中主题及用户社区挖掘的关键技术研究
其他题名Research on Detecting Topics and User Communities from Community Question Answering Serivces
张中峰
学位类型工学博士
导师戴汝为
2011-06-03
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词社区问答 热点话题 主题演化 社区演化 好友推荐 Community Question Answering Topic Evolution Community Evolution Friend Recommendation
摘要随着Web 2.0技术的飞速发展,以Yahoo!Answers为代表的社区问答系统(CQA)已逐渐成为新兴的知识共享平台,以其交互性、开放性的特点,能够较好满足用户日益个性化的信息需求。典型的CQA系统由用户、问题和答案三种基本元素组成,分析三者之间的关系,研究用户行为模式,从而改善服务质量、提高用户粘性成为相关研究面临的主要挑战。 用户提交的问题或答案的内容反映了其所感兴趣的主题信息,用户对特定主题的参与程度可以准确映衬出相关社会事件的发展趋势,挖掘其中的主题结构,特别是公众关注度较高的热点话题,有利于准确把握网络中舆论状况,为相关部门的决策制定提供信息支持和依据;对同一主题感兴趣的用户之间的问答交互更为频繁,形成联系比较紧密的用户社区,对用户社区的研究有助于从宏观层面分析用户行为,定位社区主题相关的权威用户等;同一社区中的用户由于具有共同的兴趣,更有可能建立好友关系,在用户社区研究的基础上进一步向用户推荐兴趣相投的潜在好友能够加强用户间的信息交流,从而促进知识的共享和传播。目前对CQA的研究多集中在问题和答案质量分析、相似问题检索和用户满意度预测等微观层面,较少从主题结构、用户社区及好友关系等宏观层面进行分析。本文以CQA为研究背景,以网络挖掘技术为手段,从主题、用户社区及潜在好友三个不同角度展开研究,主要内容包括如下几个方面: 1) 提出了一个热点话题检测和趋势挖掘框架,用于抽取某一时段的热点话题,并利用趋势挖掘技术,跟踪特定事件或主题随时间的变化规律,从而识别出用户广泛、持续关注,能够反映网络舆论状况的信息集合。该框架通过考虑关键词的时变特性,可以提高热点词挖掘的准确度,话题聚类算法有利于把握话题结构。针对移动终端屏幕小、输入不方便等特点,我们研究了该框架在移动平台的应用。 2) 提出了一个主题演化模式挖掘方法,用于分析某一时段的主题结构及不同时段的主题之间的演化关系,从而揭示社会事件相关主题结构的演化过程,挖掘用户兴趣随时间的变化。该方法由时序主题结构抽取、主题演化关系识别和主题生命周期建模三个主要步骤组成。在两组数据集上的实证分析表明,所挖掘的主题演化模式可以作为研究用户兴趣和关注度的信息来源和反馈渠道,有着广泛的应用前景。 3) 研究了用户社区及其演化模式挖掘问题,并针对该问题给出了两种分析策略,便于从宏观上把握用户间的交互关系。首先,从CQA中抽象出用户间的交互网络,以此为研究对象,提出了基于LDA的概率社区模型,通过考虑交互网络中边的方向信息提高了社区结构挖掘的质量。其次,以用户、问题、答案三者组成的多关系网络为研究对象,将链接分析方法和内容分析方法相结合,提出了一个多关系网络中用户社区挖掘及演化模式分析框架,并基于该框架分别设计了NMF-AT模型和AT-LDA模型。该框架通过考虑用户相关的内容信息进一步提高了社区结构的质量,并在挖掘社区的同时对社区主题进行描述。在多个数据集上的实验分析表明,本文方法能够检测到具有相似兴趣的用户社区,并对社区产生、发展和衰退的过程进行建模。 4) 以用户之间的好友...
其他摘要With the rapid popularity of Web 2.0 techniques, community question answering (CQA) services such as Yahoo! Answers have recently become a novel platform for knowledge sharing. Given their interactivity and openness, these services can well serve web users’ personalized information needs. A typical CQA system consists of three elementary actors, including users, questions and answers. Exploring the relationships among these actors and analyzing users’ behavior patterns can improve service quality and enhance users’ loyalty. The contents of questions or answers submitted by CQA users reflect their topical interests. Users’ participations in a certain topic can accurately reveal the development of the related social events. Thus, exploiting the topic structures in CQA, especially the hot topics that are highly concerned by public, is beneficial to detect public opinions, leading to better informed decisions and more effective policy implication. Users who show common interests in a certain topic tend to form a densely connected user community by interacting regularly. Detecting user communities will help analyze user behaviors from a macro point and find authorized users in the community topics, among others. Since users in the same community share similar interests, they are more likely to establish friend relationships. On the basis of detected user communities, recommending latent friends can enhance the information exchange among users, hence improving knowledge sharing and spreading. However, the current researches on CQA mainly focuse on the micro-level, such as evaluating question and answer qualities, retrieving similar questions or predicting user satisfactions. The topic structures, user communities and friendship relationships among others have received little attention. Based on web mining techniques, this thesis studies CQA from these three major standpoints, i.e. topics, user communities and latent friends. Specifically, the main research focuses are summarized as follows. 1) We present a framework for hot topic detection and trend analysis, which extracts the hot topics during certain time period and tracks the variation of given event or topic. It will help identify the information aggregation which attracts broad and continuous concerns and reveals the public opinions. By exploring the temporal characteristics of keywords, it can accurately identify hot terms. Topic clustering can help exploit the topic focuses of certain topic. Consi...
馆藏号XWLW1662
其他标识符200818014628079
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6389
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
张中峰. 社区问答系统中主题及用户社区挖掘的关键技术研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2011.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20081801462807(2441KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[张中峰]的文章
百度学术
百度学术中相似的文章
[张中峰]的文章
必应学术
必应学术中相似的文章
[张中峰]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。