CASIA OpenIR  > 毕业生  > 硕士学位论文
Internet智能信息检索与Web信息挖掘的研究及应用
周小牛
2000-06-01
学位类型工学硕士
中文摘要本文重点讨论Web信息挖掘,系统阐述了Web文档页数据挖掘的理论和方 法,目标是想用关系数据库管理系统技术(RDBMS)来管理和查询Web信息源。 基本思想是应用数据挖掘技术,从Web页中挖出领域的典型结构信息数据,将其 映射成关系数据模型,存储在关系数据库中。另一方面内容是为决策支持服务的 用户访问路径模式和兴趣主题挖掘。 文章先简要介绍了Web信息挖掘的背景和应用研究价值,提出一个应用结构 模型,针对各模块分析了相关技术细节和应用要求。接着讨论了Web页面结构挖 掘及其算法,有效的从一组同类型的Web结构对象中挖掘出典型的领域数据结 构。 关于Web页面中领域信息记录块的发现,是根据Web页面中HTML标志的巢 等级结构关系把Web页映射成一棵标志树。利用这棵标志树,在领域知识库的支 持下,应用几组启发规则,定位Web页面中的领域信息并分隔出各条记录;表数 据挖掘详细分析研究了表的结构,分析了有关HTML标志及其属性在表产生过程 中的作用,给出了有效的处理算法。 对于发现的领域信息记录块,用定义的数据模型(OEM模型)进行模型化, 对模型化后的数据,用前面讨论的Web页结构挖掘算法发现领域典型数据结构。 之所以进行典型结构挖掘,是为了存储空间的有效利用,减少关系存储中表的数 量和过多的空字段碎片。接下来研究了将得到的半结构化典型数据映射成关系数 据的有关技术方法。 第七、八两章讨论的是用户访问路径模式和兴趣主题发现。将访问路径模式挖 掘与相关规则挖掘进行了对比分析,指出它们的异同点,针对访问路径模式的特 点,给出相应的挖掘方法。对兴趣主题发现只作了一般性介绍。
英文摘要This paper puts stress on the Web information mining, and systematically expatiates the theory and method of Web pagers mining. The goal is to manage and query Web using RDBMS. The basic idea is that applying data mining technique, we will map semi-structured data into relational data, and storing it in a database. On the other hand, the path traversal pattern mining and topics of interest discovery are also discussed for decision making. First, paper introduces the background of Web information mining and the value of its application. A application model is proposed. For every module in the model, the correspondent technique and application requirement are analyzed. Next, the mining structure of Web pages is presented, the mining algorithm is given. The algorithm can effectively mine typical data structure about a domain from a group of the same type Web document objects. In the following, with aspect to the discovery of domain information record in the Web documents, we map Web document into a tag-tree according to the nested hierarchy of HTML tags. Based the mapped tag-tree, we locate the domain information in the Web document with the supporting of domain knowledge base and some heuristics. Then, extracting data from table is discussed. We analyze the relevant HTML tags and their attributes having an effect on the structure of table. The algorithm is also given. For the domain information discovered, we model the data with OEM model. Then, typical domain data structure is mined from the OEM data model. The reason that we mine the typical domain data structure is that storing space can be used effectively, that the number of table and null fields can be reduced. Next, the method mapping semi- structured data into relational data is researched. In the last two sections, the discovery of user access pattern, topics of interest is discussed. By comparing user access pattern mining with association rules mining, the difference between them is analyzed. The algorithm suitable for access pattern mining is proposed. Finally, we only generally introduce the discovery of topics of interest.
关键词Internet Web信息挖掘 Html标志 访问模式 兴趣主题 Internet Web Information Mining Html Tags Access Pattern Topics Of Interes
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/7315
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
周小牛. Internet智能信息检索与Web信息挖掘的研究及应用[D]. 中国科学院自动化研究所. 中国科学院自动化研究所,2000.
条目包含的文件
条目无相关文件。
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[周小牛]的文章
百度学术
百度学术中相似的文章
[周小牛]的文章
必应学术
必应学术中相似的文章
[周小牛]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。