CASIA OpenIR  > 毕业生  > 博士学位论文
现代汉语新闻要素语义分析关键技术研究
其他题名Research on Semantic Analysis of the Elements of Modern Chinese News
赵毅强
学位类型工学博士
导师杨一平 ; 曾隽芳
2009-05-31
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业计算机应用技术
关键词新闻要素 概念知识树 语义分析 语义语法 递归转移网络 Elements Of News Concept Knowledge Tree Semantic Analysis Semantic Grammar Recursive Transition Network
摘要新闻要素是对新闻事实的时间、地点、参与者、主要事件、经过和原因(简称为6个W)的概括,是新闻工作者在长期的工作中提炼出来的用以把握和陈述新闻事实的有力工具,而且要素的分析可以为语义理解提供有力支撑,从而有效地增强信息抽取、自动摘要、问答系统及机器翻译等有广泛应用的自然语言处理技术。随着汉语地位的不断提高和新兴媒体对新闻事实的快速传播,现代汉语新闻要素分析相关的理论和技术问题亟须进行深入研究。 新闻要素语义分析的研究目标主要是通过语义分析获取新闻描述语句中刻画新闻时事的相关要素从而达到对语句的理解。本文以现代汉语新闻要素及描述新闻事实的语句为研究对象,以概念知识树知识表示体系为理论基础,对汉语新闻要素的语义特点,新闻要素的语义表达模型,新闻要素的相关知识的组织和新闻要素的自动分析算法进行了深入研究。本论文的主要工作和贡献包括: (1) 本文将传播学中新闻要素(When、Where、Who、What、How、Why)的概念引入到自然语言理解领域,对其在语义刻画上的领域无关特性进行了深入研究,并将前4个要素应用于陈述新闻事实的语句的语义分析,从而得到了一种全新的与语义角色类似但却更为一般和概括的、领域无关的语义信息描述方法。 (2) 概念知识树知识表示体系是以概念为基础的知识表示和组织的框架。本文在已有的相关研究成果基础上,对该体系进行了较为规范的形式化工作,并且以要素的分析为契机提出了语义状态驱动的概念复合算法,从而进一步完善了概念知识树知识表示体系。 (3) 针对新闻要素的语法及语义特点,在概念知识树知识表示体系中基于概念的语义表达体系的基础上,提出了新闻要素的语义表达模型。本文使用概念模型及其内部结构表示新闻要素的语义内涵,并借助语义约束、语义状态以及语义逻辑这三种基本的概念复合模型,使用复合概念来刻画复杂形式下要素的语义。同时本文还对要素间的语义关系进行了深入研究,发现并详细阐述了What要素对于其他要素的支配作用。 (4) 本文分析了与新闻要素相关的概念之间的上下位、同义、整体-部分及语义场等关系,利用知识树模型并根据概念间的关系和已有的各种知识表示策略,针对When、Where、Who和What四个要素构建了与之相关的时间、地点、职务、机构以及动词的知识树并对其知识节点的内涵进行了充实。 (5) 本文给出了基于语义的要素分析的一般框架。该框架将要素的分析过程分为语义分析、概念复合和要素获取三个阶段。对于这三个阶段,以概念知识树知识表示体系为理论基础,本文分别提出了基于语义语法与递归转移网络并引入注意机制的语义分析算法,以语义状态和语义角色驱动的概念复合算法,及基于语义核心的要素提取算法。 综上所述,本文对于现代汉语新闻要素的语义表达和分析作出了有益的探索。
其他摘要The elements of news are the summarization of the time, the location, the participants, the main events, the procedure and the causes of the news fact, which are usually noted as 6Ws. They are powerful instruments found from long-term work and practice by journalists for people to grasp and describe the news fact. The analysis of elements is fundamental to the success of semantic understanding, and is critical to effective enhancements to various natural language processing technologies, such as information extraction, text summarization, question answering, machine translation, etc. And now both theoretical and technical researches on the analysis of the elements of modern Chinese news are pressing under the circumstances of the continual popularization of Chinese and the rapid spreading of news through the internet and other media. The purpose of research on the semantic analysis of news elements is to catch the elements depicting the fact from a news sentence and thereby to facilitate the understanding of the sentence. Based on the concept knowledge tree model, we have, in this thesis, made a comprehensive study of the important aspects of the elements of Chinese news, which includes the semantic characteristics, the semantic representation model, the organization of related knowledge, and the automatic semantic analysis algorithm. The main contributions of this thesis include following issues: 1. In this thesis we bring the concept of news elements (When, Where, Who, What, How and Why) into the domain of natural language understanding from mass communication, investigate its domain independent attribute, devote the first four elements to semantic parsing of sentences which describe news fact, and consequently we obtain a more general domain independent approach to describe semantic information compared to the semantic roles. 2. Concept knowledge tree model is an architecture based on concept for knowledge representation and organization. Besides the achievements already in existence, we give the formalism of this model, propose a mean state driven algorithm for compounding concepts with the help of elements analysis,and thus make the model much sounder. 3. We propose a semantic representation model of news elements in consideration of its syntactic and semantic characteristics under the semantic representation frame which belongs to the concept knowledge tree model and is based on concepts. We use the concept model and its internal structure to re...
馆藏号XWLW1338
其他标识符200518014629109
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6199
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
赵毅强. 现代汉语新闻要素语义分析关键技术研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2009.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20051801462910(1971KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[赵毅强]的文章
百度学术
百度学术中相似的文章
[赵毅强]的文章
必应学术
必应学术中相似的文章
[赵毅强]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。