CASIA OpenIR  > 毕业生  > 硕士学位论文
文本分类和检索研究
其他题名Research on Text Retrieval and Text Categorization
李小兵
学位类型工学硕士
导师台宪青
2005-04-30
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业计算机应用技术
关键词文本检索 文本分类 概念网络 知识树 Text Retrieval Text Categorization Conceptual Network Knowledge Tree
摘要随着 Internet 的迅猛发展,大量的电子信息成几何级数增长。面对浩瀚的信息海洋,如何从中间获取自己所需的信息,成为越来越多的人的迫切要求。文本信息在电子信息中占有很重要的地位,文本信息检索和分类技术的研究,有着重大的理论价值和现实需求。 本文面向大规模的中文文本,在文本检索和文本分类方面展开了研究与探索: 首先,针对文本检索,作了相关的研究。中文文本检索有多种模型:布尔逻辑模型、基于统计的 VSM 模型、基于概率的模型、基于语义网络的模型等。在分析这些模型的基础上,本文利用概念网络作为工具,对文本检索进行了探讨。文中阐述了如何利用概念网络组织领域知识,以及如何把领域知识应用到文本检索中的方法。 其次,对文本自动分类技术作了研究。目前大多数文本分类系统都是基于 VSM 模型的,即将文本表示成向量,然后通过计算向量间的距离决定向量类别的归属。本文针对 VSM 模型一般不考虑特征间的关系和文本结构方面的关系而导致分类不准的问题,对基于知识树的文本分类方法进行了研究。 该方法模仿人类在进行分类时的行为,以知识树所组织的知识作为分类的依据。在计算文本与类别的关联度的过程中,考虑了文本的结构方面的信息,对关键词进行动态加权。实验结果表明,相较于基于向量空间模型的 KNN分类方法,这种分类方法能明显地提高分类的召回率。同时,实验结果也指出,该方法的分类效果可以在知识树进一步完善的情况下得到进一步的改良。
其他摘要With the rapid development of the Internet, a tremendous amount of information is increasing everyday. How to gain useful information from huge of e-information is an urgent task to handle. Text information holds a very important station in all e-information. The research on text retrieval and text categorization has great value both in theory and reality. In this article, we focus on the research and exploration of the text retrieval and automatic text categorization: Firstly, we concentrate on the text retrieval. There are many models for Chinese text retrieval: Boolean indexing, vector space model (VSM) based on statistics, probabilistic retrieval, retrieval based on semantic network and so on. After analysis these models, this paper explores text retrieval with the conceptual network as a tool. How to organize domain knowledge with conceptual network and how to uses the domain knowledge in text retrieval are explored in this part. Secondly, we do research on automatic text categorization. Now, most of the text categorization systems are based on the VSM, that means the text is expressed in a vector, then which class the text belongs to is determined by the distance between the vectors. As the VSM does not take the relationship between the features into account, the result is not so precisely as some times. Aimed at this instance, the text categorization algorithm based on knowledge tree is proposed in this article. It simulates the human behavior in the text classification and uses the knowledge tree as the basis to categorize the text. During the process of computing the association degree between the text and the class, it considers the structure of the text and makes dynamic weighting to the key words. The experiments show that this algorithm has better recall than KNN algorithm that based on VSM. At the same time, the experiments show that we can get better results if the knowledge tree is more consummated.
馆藏号872
其他标识符14605T302
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6882
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
李小兵. 文本分类和检索研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2005.
条目包含的文件
条目无相关文件。
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[李小兵]的文章
百度学术
百度学术中相似的文章
[李小兵]的文章
必应学术
必应学术中相似的文章
[李小兵]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。