CASIA OpenIR  > 毕业生  > 博士学位论文
面向综合集成研讨环境的主动信息获取技术研究
其他题名Active Information Retrieval Research for HWME
倪娜
2012-05-29
学位类型工学博士
中文摘要20世纪90年代初期,我国科学家钱学森院士等人提出了用于处理``开放的复杂巨系统"及相关问题的方法论-综合集成法。综合集成法的构思是将人集成于系统之中,采取人-机结合的技术路线,充分发挥人和计算机各自在信息处理方面的优势,解决那些单靠人或计算机都难以解决的问题。1992年,综合集成法被进一步发展为综合集成研讨厅体系,其要点是借助专家研讨和智能化信息处理工具,把综合集成法中的个体智慧明确上升为群体智慧。 在综合集成研讨厅的应用过程中,已经发现:来自互联网的权威信息可被视为一个``特殊专家"的重要观点,对于启发、激活专家思维具有重要意义。然而在存在时间压力的情况下,频繁的信息检索以及随之而来的信息过载将极大加重用户(专家)的工作负担,导致传统的信息获取方式在综合集成研讨环境中难以使用。因此,我们需要一种主动化的信息获取方法,在研讨进行过程中主动感知当前话题,自动根据话题选择合适的检索词进行检索,并主动将检索结果推送给相应的用户。这一过程涉及到结构化领域词典的构建、研讨话题的实时提取及研讨用户兴趣建模等关键问题,本文针对这些问题开展了研究,具体研究内容和成果包括: 1. 提出了一个主动信息获取技术框架。该框架主要包括结构化领域词典构建模块、研讨文本分析模块、用户兴趣模型构建模块及个性化信息检索与过滤模块。该框架的工作流程为,在研讨开始前,根据研讨所在领域搜集相关背景资料,生成研讨所需结构化多领域词典,并对参与本次研讨的用户,根据其历史发言记录建立兴趣模型;在研讨进行过程中,定时读取研讨发言,生成反映研讨主题及所在领域的话题,判断并跟踪话题的变化;当话题发生变化时,生成检索词送入搜索引擎进行检索,将检索结果依据研讨文本内容进行过滤,将得到的与研讨相关的信息根据用户兴趣模型进行筛选,得到个性化的信息推荐给相应用户。该框架的设计符合研讨厅本身研讨内容领域性强、信息快速流动变化、用户作为一个整体协同开展工作等特点,有助于指导主动信息获取中相应研究工作的开展,其应用与实施也是对现有研讨厅环境的重要补充。 2. 提出了一种结构化领域词典生成方法。该方法主要包含两个步骤:1) 采用潜在话题模型建立领域与词汇之间的关系,从多领域语料中挖掘各个领域的领域术语;2) 在每个领域的语料上,采用词间关联范式(word association norm)度量领域术语之间的相关性,学习该领域术语之间的层次关系。本文分别在中英文语料上进行了实验,并采用人工与自动结合的方法对算法进行了评价。实验结果表明,方法挖掘出的词条能够很好的表示相关领域的内容,学习到的层次关系能够有效的反映所在领域的结构特点,同时比现有技术具有一定的优势。 3. 提出了一种新的基于标签的发言段落话题表示方法。首先,针对研讨环境中发言文本短小、领域性强等问题,选取已标注过的文本作为背景语料,分别采用语言模型、潜在狄利克雷模型(LDA)、概率作者话题模型及语言模型与LDA模型的组合,建立标签与组成文本的特征词之间的关系模型,再将该模型用于研讨文本话题表示中,提取标签形式的话题...
英文摘要As the methodology of Open Complex Giant Systems (OCGSs), meta-synthesis was proposed in the early 1990s by Prof. H. S. Tsien and et al. Its central principle is to combine the intelligence of human and the computational efficiency of computers, aiming to handle the problems those cannot be solved by human or computer alone. In 1992, meta-synthesis was developed to HWME (Hall for Workshop of Meta-synthetic Engineering), which emphasized the collective wisdom. The collective wisdom is derived from discussions of human experts and cooperation between human and computers. Authoritative information relevant to discussion topics has showed its great importance in HWME applications. And it's clear that the Internet is a good resource for such information. However, in HWME applications, human experts often work under severe time pressure. It's hard for them to search information on the internet frequently and timely. Thus, an active information retrieval method is essential for HWME applications, which can automatically sense topics, generate query terms and search on the Internet. This dissertation mainly focuses on developing such an efficient active information retrieval method. And the main achievements of our research are listed as follows: 1. An active information retrieval framework for HWME was proposed. The framework consists of four basic modules: a domain thesaurus construction module (module A), a discussion texts analysis module (module B), an information retrieval and filtering module (module C), a personalized information recommendation module (module D). Before discussions, structural multi-domains thesauri are constructed based on the background materials relevant to the discussions by module A. During a discussion process, the topics are extracted and the change of topics is judged. And query terms are generated and sent to a search engine by module B. The retrieval results are obtained and filtered according to the discussions by module C. The information that users are interested in is selected and personalized information is recommended to the right users by module D. The framework is proved to be suitable for HWME applications, which often has the following characteristics: the discussions often have a strong domain background, while the topics changes frequently. 2. An automatic method for building structural domain-specific thesauri is proposed. This method consists of two steps: a) discovering domain-specific terms from document co...
关键词综合集成研讨厅 主动信息获取 领域词典构建 话题提取 用户兴趣建模 Hwme Active Information Retrieval Domain Thesaurus Construction Topic Extraction User Interest Modeling
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6440
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
倪娜. 面向综合集成研讨环境的主动信息获取技术研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2012.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20091801462804(8897KB) 暂不开放CC BY-NC-SA
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[倪娜]的文章
百度学术
百度学术中相似的文章
[倪娜]的文章
必应学术
必应学术中相似的文章
[倪娜]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。