CASIA OpenIR  > 毕业生  > 博士学位论文
面向网络新闻的非结构化信息处理相关技术研究
其他题名Research on Unstructured Information Processing Orienting to Web News
杨伟杰
2009-05-30
学位类型工学博士
中文摘要随着信息传播技术的迅猛发展,尤其是广播、电视等新闻报道信息流在互联网上的全面开花,互联网成为不可忽视的舆论阵地, 而互联网新闻作为一种重要的情报信息来源,也在人们的生产、生活中扮演着越来越重要的角色。但是由于新闻是一种典型的 非结构化信息,同时互联网新闻具有无范围限制特点(时间、空间等),使得人类社会面临着日益严重的信息挑战。人 们迫切需要能够自动实现对这些新闻信息进行有效的存储、 信息检索和情报挖掘的各种智能业务。新闻信息处理系统是非常有力的工具,其目的是有效地组织和处理海量的新闻信息。 另外相对于英文信息处理技术,汉语文本信息处理基础相对薄弱, 因而本文针对中文网络新闻信息处理这个具有重要理论意义和广阔应用前景的课题进行了研究和探索,所取得的主要成果如下: 1.提出了一种基于浅层分析与机器学习的零指代消解方法。 此方法针对基于规则的零指代消解方法的不足, 依据零形代词的特点,通过基于形式分析的方法对话语片段进行浅层分析,根据逻辑配价理论, 利用逻辑论元识别的方法,自动高效地识别零指代,并使用机器学习的方法对零形代词进行消解。 实验结果表明,该方法较之以前基于规则的方法,在零形代词识别和消解方面,性能都有很大的提高。 2.提出了一种基于文本内容分析的社会网络自动抽取方法。此方法在对输入文章进行分词标注、 共指消解等预处理之后,通过名词合并及主动词识别,得到存在关系的实体之间的关系指向和关系描述, 最后通过有向图把存在关系的实体进行连接,形成由命名实体、实体间关系指向、实体间关系描述构成的社会网络。 本文方法的主要特点如下:首先,本方法是基于文本内容分析的,不仅仅依靠实体的共现信息, 得到的社会网络更加可靠。其次,本方法不仅仅局限于对人与人之间的关系进行抽取, 而是对所有的不同实体之间的关系进行抽取。再次,本方法中采用有向图对社会网络进行可视化表现, 对实体之间关系的描述更加详细。 3.在对社会网络抽取的基础上,提出了一种基于词典的实体间关系倾向分析的方法。 通过对社会网络中的关系及关系的描述进行情感倾向分析,从而得到实体两两之间的关系倾向。 4.提出了一种基于关键词识别的中文新闻文档摘要方法。此方法依据关键命名实体 和实体关系网络对文档中重要句子进行去重、排序,并采用了一种基于基准文档的方法输出摘要。 实验表明,此方法可以有效识别新闻文档中的重要句子,并能对冗余句子进行去重,输出的 文摘文档能比较全面准确的反映原文内容,而且可读性较强。 5.提出了一种基于信息检索技术的互联网新闻影响力定量分析方法。此方法利用信 息检索领域中的相关算法,对相关信息进行分析研究,建立了一个网络新闻影响力模型来定 量计算新闻的影响力,从而估计新闻对社会安全产生影响的程度。在对大量实验结果的统计 分析中发现此方法可以有效地对新闻文章进行排序, 发现不同新闻类型中最值得关注的新闻,其结果与人的定性判断结果具有较高的一致性。 6.提出了一种用综合集成...
英文摘要As a typical unstructured information, news is an important source of intelligence. With the development of information communication technologies, especially the development of broadcasts and television programs on the Internet, Internet is becoming a major media for news dissemination. While, Internet news has no restriction on time and space, the human society is facing serious information challenge. People are eager to have all kinds of intelligent services, which can automatically collect, filter, organize and utilize network information. Event-based news story analysis is a powerful tool, the aim of which is to effectively organize and process vast news information. In comparison with the information processing technologies techniques on English texts, it has a weaker foundation for Chinese texts. Therefore, this dissertation explores the topic on event-based news story analysis technology, which is a research issue with great significance in theory and wide perspective in application. The main achievements in this dissertation can be described as follows: 1.A new method to detect and resolve zero pronouns in Chinese text is proposed, which uses machine learning plus shallow parsing. According to the shortcomings of the rule-based approaches for anaphora resolution and the characters of zero pronouns, integrating automatic main verbs identification, verbal logic valence and machine learning approach, this method treats zero pronoun recognition as the problem of finding missing verbs logic arguments. First, based on automatic main verbs identification, syntax hierarchies were analyzed. Second, combining the syntax hierarchy and verbal logic valence theory, zero pronouns were identified. And then using a machine learning approach, zero pronouns were resolved. Experimental results demonstrated this zero pronouns identifying and resolving method works effectively. 2.A new method of extracting social network among various entities from Chinese news stories by content analysis is proposed. First, the input articles are annotated by lexical analysis. Second, the relationships among all entities are extracted by the way of main verbs recognition. For directed graph expression, an arrow is drawn between each pair of entities which have relationship from the agent argument to the patient one. Finally, all relationship expressions were established to build the social network up. Contributions of this method are summarized as follows: First, this method is b...
关键词主动词识别 零指代消解 社会网络抽取 新闻影响力 综合集成研讨厅 Main Verbs Identification Zero Pronouns Resolution Social Network Extraction The Force Of News Cyberspace For Workshop Of Metasynthetic Engineering
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6189
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
杨伟杰. 面向网络新闻的非结构化信息处理相关技术研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2009.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20061801462803(1391KB) 暂不开放CC BY-NC-SA
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[杨伟杰]的文章
百度学术
百度学术中相似的文章
[杨伟杰]的文章
必应学术
必应学术中相似的文章
[杨伟杰]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。