CASIA OpenIR  > 模式识别国家重点实验室  > 自然语言处理
融合用户信息的文本情感分析方法研究
李俊杰
学位类型博士
导师宗成庆
2018-12-04
学位授予单位中国科学院大学
学位授予地点北京市海淀区中关村东路95号中国科学院自动化研究所
学科专业计算机应用技术
关键词自然语言理解 情感分析 用户信息 情感分类 情感摘要
中文摘要

随着互联网技术的快速发展,越来越多的用户在网上发表关于产品、社会事件以及政府政策等的评论。对这些主观信息进行自动收集和情感分析,可以挖掘用户对产品或事件的倾向,有利于相关企业或部门及时获取产品或政策的反馈,因此情感分析研究具有重大的现实意义。
已有的情感分析研究大多关注于如何从评论文本中抽取更加有效的特征表示文本,或者构建更加复杂的神经网络模型对文本进行建模。但是,除了评论的文本内容外,评论发布者的相关信息(如年龄和性别等)对理解评论文本同样有重要的影响。
基于此,本文的研究工作围绕如何充分利用用户信息来提升情感分析任务的效果,本文首先分析了两类用户信息——用户ID和用户属性(年龄和性别等)对情感分析的作用,然后将其融入文档级别情感分类、要素级别情感分类和情感摘要三个情感分析的任务中。论文的主要贡献和创新归纳如下:


\textbf{1、提出了一种融合多层用户偏好的文档级别情感分类方法}

不同用户在情感表达的用词、对产品不同方面的关注、以及对产品打分的特点上都有着不同的偏好,这些偏好对文档级别情感分类非常重要。
为了同时考虑这三类不同的用户偏好,本文提出了一个融合用户偏好的层次化注意力网络模型。
该模型首先采用一个层次化的网络结构来编码词汇层、句子层、要素层和文档层的信息。
然后引入用户向量和基于用户的注意力机制来对这三类偏好进行建模。
在两个真实语料上的实验结果表明,融合用户偏好的模型能够显著提升情感分类的效果。与不考虑用户偏好的模型相比,我们方法的情感分类准确率提高了3个百分点,并且该方法还可以定量地刻画出不同用户对产品不同方面关注的差异性。

2、提出了三种融合用户属性的文档级别情感分类策略

用户评论不仅在个体用户偏好上体现出差异性,同时,在相同属性(年龄和性别等)的用户群体中,也呈现出一定的规律性。
不同用户群体对同一款产品会有不同的偏爱,比如年轻用户会偏爱先进的智能手机,而老年用户却更偏爱使用简单的老年机。
基于此,
本文提出了三种策略将用户属性融入传统的分类模型中:(1) 提取用户属性特征,
将它作为文本特征的补充;
(2)基于图的模型来考虑属性相似用户发表的评论之间的关系;(3)将前两者进行融合。实验结果表明,我们的三种策略在情感分类的识别准确率上分别提升1.9%、0.9%和2.2%。

3、提出了一种融合多类信息的要素级别情感分类方法

要素级别情感分类的目的是预测评论文本中各个要素的情感标签,其中要素指的是产品的某些待评价的方面。
已有的研究工作主要关注于给定某个要素的条件下,如何从评论文本中提取出与要素相关的词汇或句子以表征该评论文本。这些方法忽略了用户和评论整体得分信息对要素情感分类的作用。为此,本章提出了一个基于层次化的神经网络模型,并将该模型融入到一个多任务学习的框架中。与已有方法相比,该模型能有效地建模这两类信息对要素级别情感分类的作用。
实验表明,本文提出的模型能够显著提升要素级别情感分类识别的准确率。与不考虑用户和整体得分模型相比,该模型的识别准确率提高了6%,在同样的数据集上与当前最好的模型相比,本文方法的准确率提高了1.7%。

4、提出了面向个性化情感摘要的用户敏感序列网络模型

现有的情感摘要方法忽视了对用户本身的建模,这些方法往往不能针对不同用户生成不同的摘要。事实上,对于同一个产品,不同的用户会关注不同的方面,因此,针对不同用户的摘要应该有所差异。本文针对情感摘要的个性化问题,在传统的序列到序列模型的基础上提出了一个用户敏感的序列网络模型。该模型在生成摘要时可以融合用户对评论内容关注的差异以及用户特有的用词习惯。实验表明,本文提出的方法显著优于传统的序列到序列模型,并且该模型可针对不同用户生成个性化的情感摘要。

综上所述,本文在针对如何利用用户信息改善已有的情感分析方法上进行了深入的研究,分别研究了用户ID和用户属性对情感分类和情感摘要的影响,并提出了一系列的模型来融合这两类信息,最终有效地提高了情感分类和情感摘要任务的性能,相关成果有力地推动了该领域的研究。

英文摘要

With the development of Internet, more and more people write reviews about 
products, social events, and government policy and so on. Automatic collection, analysis and collation of these subjective information are helpful for users, businesses and governments. Most of the work in sentiment analysis focus on extracting effective features from text or building complex neural network to model text. However, except for review text, authors of these reviews are also very important for understanding reviews. Therefore, this thesis focuses on how to use user information to improve the performance of sentiment analysis. We have deeply analyzed the effects of two kinds of user information (user ID and user attributes) on sentiment analysis, and incorporated them into document-level sentiment classification, document-level multi-aspect sentiment classification and sentiment summarization. The main contribution of this thesis can be summarized as follows:

1. Incorporating multi-level user preference into document-level sentiment classification

Different users have different word-using habits to express opinion, care about different aspects of a product, and have different characteristics to score reviews. These user preferences may be helpful document-level sentiment classification. This thesis proposed a Hierarchical User Attention Network (HUAN) to model these three kinds of use preference jointly. Specifically, HUAN encodes different kinds of information (word, sentence, aspect and document) in a hierarchical structure and imports user embedding and user attention mechanism to model these preferences. We conduct experiments on two real dataset. Experiments show that these three kinds of user preference can boost the performance of sentiment classification. Compared with models that not consider user information, our method can improve 3%. Furthermore, HUAN can also mine important attributes of products for different users. 

2. Proposing three strategies to merge user attributes into document-level sentiment classification

Except for the effect of user ID on sentiment classification, we find user attributes can also improve sentiment classification performance. People in different groups may have different preferences on products. For example, a young man loves iPhones, however old man may prefer phones which are easy to use. We propose three strategies to consider user attributes: (1) treat them as features; (2) design a graph-based method to model the relationship between tweets posted by users with similar attributes; (3) combine aforementioned two strategies. Experiments show that our three strategies can obtain 1.9, 0.9 and 2.2 percent improvements.

3. Incorporating multi-level information into document-level multi-aspect sentiment classification

Document-level multi-aspect sentiment classification aims to predict user’s sentiment polarities for different aspects of a product in a review. Existing approaches mainly focus on text information. However, the authors (i.e. users) and overall ratings of reviews are ignored. We propose a model called Hierarchical User Aspect Rating Network to consider user preference and overall ratings jointly, and adopt a multi-task framework to reinforce it. Empirical results show that compared with baseline and the state-of-the-art method, our method can obtain 6.0 and 1.7 percent improvements.

4. Proposing user-aware sequence network to perform personalized review summarization

Existing sentiment summarization methods ignore users and generate a summary for all users. However different users care about different aspects of a product. Therefore we first propose the personalized issue of sentiment summarization. Then we propose a user-aware sequence network to perform the task, which incorporates aspect-level user preference and user-specific word-using habits. To validate our model, we collect a new dataset comprising reviews, summaries and users. Empirical results show that our model is significantly better than the basic sequence-to-sequence model. Furthermore, our method can generate different summaries for different users.

In summary, this thesis focuses on incorporating user information into sentiment analysis. We study the effects of user ID and user attributes on sentiment classification and summarization, and propose a series of models to consider them, and boost the performance of these two tasks. These results greatly promote researches in this area.

页数100
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/23063
专题模式识别国家重点实验室_自然语言处理
推荐引用方式
GB/T 7714
李俊杰. 融合用户信息的文本情感分析方法研究[D]. 北京市海淀区中关村东路95号中国科学院自动化研究所. 中国科学院大学,2018.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
最终版_李俊杰_2018-12-12 1(2655KB)学位论文 开放获取CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[李俊杰]的文章
百度学术
百度学术中相似的文章
[李俊杰]的文章
必应学术
必应学术中相似的文章
[李俊杰]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。