CASIA OpenIR  > 毕业生  > 博士学位论文
基于潜语义模型的跨媒体信息检索与文本情感分析
其他题名Latent Semantic based Cross Media Information Retrieval and Sentiment Analysis
王炜
学位类型工学博士
导师王春恒
2009-05-29
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词图像检索 情感分析 潜语义 Image Retrieval Sentiment Analysis Latent Semantic
摘要潜语义模型已经被应用到跨语言信息检索、图像标注与检索以及文本情感分析等多个领域。本文提出了Multitype-LDA模型和CTS-LDA模型,Multitype-LDA模型可实现跨语言、跨媒体的信息检索,而CTS-LDA模型可以对网络评论做深入的情感分析。本文的主要工作和贡献有: 提出Multitype-LDA模型来处理包含多种类型的“词”的文档集,这些词可以是不同语种的词,或者是不同的媒体特征(如图像中的SIFT特征、color-patch特征等),也可以是媒体特征与文本词。通过计算不同种类型的“词”之间的共现关系,Multitype-LDA模型可以确定不同语言或媒体之间的语义联系,从而实现跨语言、跨媒体的文档标注和检索。 提出了基于Multitype-LDA模型的图像标注和图像检索方法。Multitype-LDA模型可以实现文本对图像的自动标注。线性地联结文 档模型和Multitype-LDA模型,可以实现一种基于语义的图像检索的方法。实验证明了Multitype-LDA模型在图像标注和图像检索中的有效性。 提出了Multitype-LDA跨语言信息检索模型,根据不同语种的词之间的共现关系,确定不同语种之间的语义关系,并根据不同语种的语义联系实现跨语言的信息检索。实验表明,Multitype-LDA跨语言信息检索模型具有较好的跨语言信息检索性能。Multitype-LDA跨语 言信息检索模型可以处理大规模的数据集。 提出了TS-LDA模型来进行话题情感分析,TS-LDA模型能够同时确定评论所涉及的话题及每一话题的情感倾向。 为了有效利用评论集中的专家观点和一般用户观点,在TS-LDA模型的基础上提出了CTS-LDA模型,即概念话题-情感LDA模型。 CTS-LDA模型将专家观点看作是概念,而将一般户观点看作是话题,能够很好地结合专家观点和一般用户观点,可以同时确定评论所 涉及的概念或话题以及这些概念或话题的情感倾向。实验表明,CTS-LDA模型很适合做网络评论情感分析。 本文还开发了一个产品评论在线分析的雏形系统CTS。CTS系统用CTS-LDA模型来做评论集的情感分析,用语义网技术建立知识库来储存和查询模型计算结果,并以图形界面显示分析结果。 总的说来,本文针对潜语义模型在跨媒体信息检索与情感分析的应用研究中作了有益的探索。
其他摘要Latent semantic model has been applied to cross-language information retrieval, image annotation, image retrieval, sentiment analysis and other fields. In this paper, we propose the Multitype-LDA model for cross-media information retrieval and the CTS-LDA model for sentiment analysis. The main contributions of this thesis include following issues: We propose the Multitype-LDA to deal with corpus which have multi-type “words”.The words can be words from different languages, the features from different medium or the mixtures of the words and features. The Multitype-LDA model can find the semantic relation between the different types of "words", and can be applied to cross-language or cross-media information retrieval. We apply the Multitype-LDA model to the image notation. We also find that combining the original document model with the Multitype-LDA model is effective in image image retrieval. We also construct a Multitype-LDA based cross language information retrieval model.The model can bridge the semantic gap of different languages. The experiments indicate that the Multitype-LDA based cross language information retrieval model is very effective. We propose a topic sentiment mixture model which we call TS-LDA model for the sentiment analysis.The TS-LDA model can find the topic and the sentiment of the online reviews simultaneously. To enable the user benefit from the expert opinions and the ordinary opinions, we propose the CTS-LDA model, which stand for concept and topic sentiment LDA model. In CTS-LDA model, the expert opinions are concepts and the ordinary opinions are topics. The CTS-LDA model can obtain the sentiment polarity of the concepts or topics in each review. Experiments show that CTS-LDA model is very suitable for sentiment analysis. We also develop a demo system for online sentiment analysis of the product reviews. We call the system as CTS. In CTS, we apply the CTS-LDA model for sentiment analysis, and use the semantic web to build knowledge base to store and query the results, and illustrate the results by phical interface. In a word, in this thesis, we have made a lot of fruitful attempts and significant progresses on latent semantic model.
馆藏号XWLW1431
其他标识符200618014628030
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6188
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
王炜. 基于潜语义模型的跨媒体信息检索与文本情感分析[D]. 中国科学院自动化研究所. 中国科学院研究生院,2009.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20061801462803(4372KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[王炜]的文章
百度学术
百度学术中相似的文章
[王炜]的文章
必应学术
必应学术中相似的文章
[王炜]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。