CASIA OpenIR  > 毕业生  > 硕士学位论文
信息检索技术鲁棒性研究
其他题名Research on the Robustness of Information Retrieval
徐晋
学位类型工学硕士
导师徐波 ; 赵军
2005-05-01
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词信息检索 鲁棒性 自然语言处理 机器学习 Trec评测
摘要如何有效提高信息检索技术的鲁棒性是本论文研究的中心内容。本文第一章首先简要介绍了信息检索的关键技术和研究趋势,指出了文本信息检索的三大关键技术:“查询处理”、“相似度计算”和“结果排序”,并相应地提出了论文工作的基本思路:在上述三大关键技术中,引入自然语言处理和机器学习的方法,期望以此提高检索的鲁棒性。随后,第二章和第三章分别介绍了将自然语言处理和机器学习技术应用到信息检索中的若干模型,并对这些模型在TREC Robust Track大规模标准语料库上的实验结果进行了详细分析。接着,第四章介绍了我们NLPR参加TREC2004评测的基本情况以及经验总结。最后,第五章给出了论文工作的总结和展望。概括来说,本论文主要有如下几项工作:1.提出词义熵模型,利用Wordnet提供的结构化的词义知识,帮助确定查询项的权重。实验表明,词义熵模型与当前常用的TF*IDF权重计算公式联合使用,能有效提高检索系统鲁棒性。2.利用自然语言处理中命名实体和多词术语的概念,提出了加入名词性多词组合的矢量空间模型,以及来源于语义张量概念的核心窗口模型和改进的动态核心窗口模型。实验表明,这三个检索模型都能在一定程度上提高检索系统的性能。3.对于如何有效融合多个检索模型,本文详细研究了两大类方法:基于结果的融合方法和基于查询词的自动模型选择方法。对基于结果的融合方法,本文提出了三种方法:简单合并方法,得分归一化方法以及文本聚类方法。对基于查询词的自动模型选择方法,本文引入了三种新的查询项特征,并分别采用了两种分类方法:KNN和SVM分类器。实验表明,两类融合方法都是有效的;KNN分类器的准确率要高于SVM分类器;引入的新特征都可以改善系统性能;保持特征空间维数在一定范围的情况下,组合特征也有助于提高分类器准确率。4.通过参加TREC评测,测试了新检索算法的性能,在Robust任务取得了不错的成绩。并通过与国际同行的比较,积累了一些提高文本检索鲁棒性的经验。
馆藏号XWLW878
其他标识符200228014603566
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6901
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
徐晋. 信息检索技术鲁棒性研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2005.
条目包含的文件
条目无相关文件。
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[徐晋]的文章
百度学术
百度学术中相似的文章
[徐晋]的文章
必应学术
必应学术中相似的文章
[徐晋]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。