CASIA OpenIR  > 毕业生  > 硕士学位论文
关联话题网络
其他题名Related Topic Network
常超
学位类型工学硕士
导师王飞跃 ; 曾大军
2010-05-13
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业计算机应用技术
关键词话题识别 话题表示词提取 关联话题抽取 Topic Detection Topic Representation Extraction Related Topic Extraction
摘要互联网技术的发展给人们带来便利的同时,也造成了信息过载。为了降低信息分析的代价,研究人员做了大量的研究工作。我们基于话题识别与追踪和关系抽取的研究,提出了新的辅助信息分析的方法-关联话题网络。它能够把大量的信息按照话题的方式组织起来,并发现有关联关系的话题。 话题识别与追踪的研究已经开展了很多年,但是并没有涉及发现话题之间的关系抽取。关系抽取的主要研究对象还只是限于实体,并没有扩展到话题层面上。我们力图把两者的研究进行有机地结合,使得话题之间的关联关系能够被提取出来。通过实验,可以得出这样的结论,我们的方法提升了话题识别的准确率和召回率,能够发现部分关联话题。 我们在已有研究的基础上,进行了三个方面的探索: 1. 在话题识别方面,对词权重的衡量模型进行了改进,提出了TF-WF/DF。在实验中,这个模型要好于之前的模型。 2. 在话题表示词的提取方面,提出了新的基于文档标题的话题表示词提取方法。 3. 在关联话题挖掘方面,基于同句共现假设,提出了句子级别的关联关系话题挖掘方法。 总结以上,本文是在话题识别与追踪和关系抽取结合领域的初步探索。
其他摘要While the Internet has brought convenience to people, it has also led to the information overload problem. Researchers have made a lot of effort to deal with information overload. We propose related topic network, a new method for information analysis based on TDT (topic detection and tracking) and relation extraction. This method can organize information according to topics and identify related topics. While many methods for TDT have emerged over many years of research, past research has not addressed relationships across topics. The main research object of relation extraction is still limited to entities and has not been extended to the topic level. We strive to synthesize research in the two areas so that related topics can be extracted. Our experimental results show that our method can improve precision and recall of topic detection and can find part of related topics. We make the following three contributions over existing research: 1. For topic detection, we propose TF-WF/DF, an improved term weighting model. In our experiment, this model outperformed past models. 2. For topic representation extraction, we propose a new title-based method. 3. For related topic extraction, we propose a sentence-level method based on a same sentence co-occurrence assumption. In summary, this thesis presents a preliminary exploration in the fusion of TDT and relation extraction.
馆藏号XWLW1560
其他标识符200728017029249
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/7512
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
常超. 关联话题网络[D]. 中国科学院自动化研究所. 中国科学院研究生院,2010.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20072801702924(1684KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[常超]的文章
百度学术
百度学术中相似的文章
[常超]的文章
必应学术
必应学术中相似的文章
[常超]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。