信息检索技术鲁棒性研究

CASIA OpenIR > 毕业生 > 硕士学位论文

	信息检索技术鲁棒性研究
其他题名	Research on the Robustness of Information Retrieval
	徐晋
	2005-05-01
学位类型	工学硕士
中文摘要	如何有效提高信息检索技术的鲁棒性是本论文研究的中心内容。本文第一章首先简要介绍了信息检索的关键技术和研究趋势，指出了文本信息检索的三大关键技术：“查询处理”、“相似度计算”和“结果排序”，并相应地提出了论文工作的基本思路：在上述三大关键技术中，引入自然语言处理和机器学习的方法，期望以此提高检索的鲁棒性。随后，第二章和第三章分别介绍了将自然语言处理和机器学习技术应用到信息检索中的若干模型，并对这些模型在TREC Robust Track大规模标准语料库上的实验结果进行了详细分析。接着，第四章介绍了我们NLPR参加TREC2004评测的基本情况以及经验总结。最后，第五章给出了论文工作的总结和展望。概括来说，本论文主要有如下几项工作：1.提出词义熵模型，利用Wordnet提供的结构化的词义知识，帮助确定查询项的权重。实验表明，词义熵模型与当前常用的TF*IDF权重计算公式联合使用，能有效提高检索系统鲁棒性。2.利用自然语言处理中命名实体和多词术语的概念，提出了加入名词性多词组合的矢量空间模型，以及来源于语义张量概念的核心窗口模型和改进的动态核心窗口模型。实验表明，这三个检索模型都能在一定程度上提高检索系统的性能。3.对于如何有效融合多个检索模型，本文详细研究了两大类方法：基于结果的融合方法和基于查询词的自动模型选择方法。对基于结果的融合方法，本文提出了三种方法：简单合并方法，得分归一化方法以及文本聚类方法。对基于查询词的自动模型选择方法，本文引入了三种新的查询项特征，并分别采用了两种分类方法：KNN和SVM分类器。实验表明，两类融合方法都是有效的；KNN分类器的准确率要高于SVM分类器；引入的新特征都可以改善系统性能；保持特征空间维数在一定范围的情况下，组合特征也有助于提高分类器准确率。4.通过参加TREC评测，测试了新检索算法的性能，在Robust任务取得了不错的成绩。并通过与国际同行的比较，积累了一些提高文本检索鲁棒性的经验。
关键词	信息检索鲁棒性自然语言处理机器学习 Trec评测
语种	中文
文献类型	学位论文
条目标识符	http://ir.ia.ac.cn/handle/173211/6901
专题	毕业生_硕士学位论文
推荐引用方式 GB/T 7714	徐晋. 信息检索技术鲁棒性研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2005.