CASIA OpenIR  > 毕业生  > 博士学位论文
面向网络评论的观点挖掘关键技术研究
其他题名Research on the Key Methods for Review-Oriented Opinion Mining
缪庆亮
学位类型工学博士
导师戴汝为
2011-06-03
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词观点挖掘 条件随机场 质量评价 主题模型 Opinion Mining Conditional Random Fields Quality Assessment Topic Modelling
摘要随着互联网进入Web2.0时代,人们可以通过互联网平台发布、获取和传播具有观点性评论信息。面对迅速增长的评论数据,有效区分有用、无用的评论信息,有效组织、分析和挖掘蕴含着大量主观情感的评论信息是当前文本信息处理领域面临的挑战之一。观点挖掘(Opinion Mining)旨在通过分析和挖掘文本中的观点持有者、评价对象、以及观点、情感等信息,对评论者持有的情感倾向性做出判断,是当前十分新颖的研究热点,同时在商业智能、社会舆情监控、网络信息检索等领域具有重要的实用价值。 网络评论的质量参差不齐,低质量评论信息为面向网络评论的观点挖掘研究带来巨大挑战,因此在进行观点挖掘之前需要准确地评价评论的质量,过滤掉低质量评论。同时,网络评论的多元性和多样性使得观点的广度和深度明显增强,因此面向网络评论的观点挖掘需要从多角度、多侧面、多视点、多层次分析民众的观点,从而增加观点的完整性,体现民意的真正走向。另外,在观点的传递和交换过程中涌现出观点领袖,观点领袖对其他评论者观点的形成,以及观点的变化发展有着深远影响,对引导舆论起到举足轻重的作用,因此从中挖掘出观点领袖具有重要意义。针对网络评论的上述特点,本文针对网络评论质量评价模型、评价对象和观点词(情感词)挖掘、观点词倾向性识别、面向领域的情感知识库构建、主题层观点领袖挖掘、以及观点检索排序算法等方面展开研究。主要研究内容包括: 1、提出了集成评论文本信息和评论者信息的网络评论质量评价模型,该模型融合了评论的文本特征和评论者特征,提高了低质量评论检测的精度,同时对评论者特征进行深入分析,选择出最有判别意义的特征,为特征选择工作提供有意义的参考,并验证了该评价模型在不同数据集上的有效性。 2、提出了基于条件随机场(Conditional Random Fields)的评价对象特征和观点词抽取方法,该方法将被评价对象特征和观点词抽取问题转化为序列标注问题,根据词、词性、句法、上下文、领域知识库等一系列特征完成评价对象和观点词的抽取。同时,将条件随机场算法和Bootstrapping框架结合,提出一种半监督的评价对象特征和观点词抽取方法,该方法在评价对象特征和观点词抽取任务中,可以达到和有监督方法相当的性能,最后根据语义相关性对评价对象特征进行合并处理。 3、提出一种基于情感知识库的观点词倾向性识别算法,首先利用半结构化评论和通用情感词典构建领域情感知识库,然后根据领域情感知识库中评价对象特征和观点词、评价对象特征之间以及观点词之间的语义关系来实现对给定观点词情感倾向性的识别,并通过实验验证该方法对观点词,特别是上下文敏感观点词倾向性识别的有效性。 4、提出一种在主题层进行观点领袖挖掘的方法,该方法综合考虑了评论者对某一主题的兴趣和权威度以及评论者之间的链接关系。首先使用AT模型挖掘评论者的兴趣,然后结合评论者之间的链接关系对评论者进行排序。实验结果表明,该方法能够有效的识别主题层观点领袖。 5、提出了一种融合相关性、质量因素和动态性的观点信息排序方法,同时结合上述研究实现面向电子产品领域观点检索原型系统。
其他摘要With the development of web 2.0, individuals use web to distribute and share sentiment information. However, when faced with large quantity of sentiment information, how to distinguish useful information? How to analyze, organize the sentiment information effectively are the key issue in text information processing field. Under this background, opinion mining or sentiment analysis which aims to analyse opinion holders’sentiment concerning entityes has become a hot research topic recently, and has many important applications, such as business intelligence, public opinion supervision and sentiment information retrieval. The quality of web reviews varies significantly, thus low-quality reviews bring a great challenge to opinion mining. Therefore, quality assessment should be done in advance. Meanwhile, the pluralism and diversity of reviews broaden the scope and depth of opinion; consequently, fine-grained opinion mining is urgently demanded. Finally, opinion leaders usually can capture the most representative opinion and play a crucial role in opinion diffusion. Identifying opinion leaders is very important.In this paper, we investigate the key methods for review-oriented opinion mining, which include review quality assessment, product feature (aspect) and opinion word extraction, sentiment polarity recognition,topic level opinion leader identification, and sentiment retrieval.The main research content includes the following: 1. We propose an low-quality review detection model which combines review features with reviewer features. We show empirically that significant improvements can be achieved if reviewer features are integrated. In addition, we analyze the reviewer features and refine the most predictive reviewer features. 2. We propose a Conditional Random Fields (CRFs) based product feature and opinion word extraction approach, which treat the extraction task as a sequence labeling task. Specially, model is trained based on words, part of speech, syntactic and lexical features. Meanwhile, we propose a semi-supervised model by combining bootstrapping strategy with CRFs models. Finally, product features are clustered based on semantic and string similarity. 3. We propose a lexicon based sentiment polarity identification approach. Domain specific sentiment knowledge base is bulit based on semi-structured reviews and general lexicon, and then sentiment polarity is determined according to the knowledge base. Experimental results indicate the knowledge b...
馆藏号XWLW1607
其他标识符200818014628052
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6386
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
缪庆亮. 面向网络评论的观点挖掘关键技术研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2011.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20081801462805(855KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[缪庆亮]的文章
百度学术
百度学术中相似的文章
[缪庆亮]的文章
必应学术
必应学术中相似的文章
[缪庆亮]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。