CASIA OpenIR  > 毕业生  > 博士学位论文
面向安全领域的文本知识抽取与叙事生成
其他题名Knowledge Extraction and Narrative Generation from Web Text in Security Informatics
葛安生
学位类型工学博士
导师曾大军 ; 毛文吉
2013-05-25
学位授予单位中国科学院大学
学位授予地点中国科学院自动化研究所
学位专业计算机应用技术
关键词行为知识 信息抽取 知识推理 叙事生成 安全信息学 Action Knowledge Information Extraction Knowledge Reasoning Narrative Generation Security Informatics
摘要随着信息技术的进步和互联网的不断普及,网络中涌现出大量的开源文本。海量开源文本的出现给信息抽取技术的发展带来了巨大的机遇和挑战。同时,在社会计算兴起的大背景下,针对安全领域的情报分析、行为建模和计算归因模型等研究领域都迫切的需要大量来自真实世界的行为知识的支持。因此,从海量开源文本中抽取行为知识已经成为社会计算的核心研究课题之一。 面向安全领域,本文系统研究了海量开源文本中的行为知识和事件信息的抽取方法,并分别利用来自真实文本的行为因果知识和事件信息构建因果叙事和安全事件叙事。论文主要研究工作的主要贡献如下: · 研究了行为知识的自动化抽取方法。针对海量开源文本,首次提出结合行为知识推理与统计学习方法的行为知识抽取框架。本文并行抽取行为前提、结果和行为时序关系;基于三种行为知识间的语义关联,本文将基于知识推理的隐含行为知识获取和基于信息抽取技术的显式行为知识抽取有机的结合起来,设计了结合知识推理和Bootstrapping的半监督行为知识抽取策略;并利用安全领域和电子商务领域的海量开源文本测试了所提出的行为知识抽取算法的有效性。 在本文设计并实现的行为知识抽取算法:1) 设计了针对依存句法关系的语义规则,不仅能够减少句子中的修饰成分给行为知识抽取带来的干扰,而且能提高匹配效率;2) 设计了针对行为知识和语义规则的语义相似度计算方法,并基于语义相似度和统计关联信息构建了行为知识和规则的确信度评价准则,有效的提升了行为知识抽取算法的性能;3) 提出了结合行为知识推理和Bootstrapping方法的行为知识抽取策略。该策略利用行为知识间的语义关联,通过知识推理获取隐含的行为知识,并用于扩充Bootstrapping方法抽取的行为知识集合,改善行为知识抽取性能。此外,本工作利用已有常识知识库获得初始知识抽取规则和常识知识。从已有常识知识库中获得初始规则和知识能够保证规则质量和补充文本中常识知识的不足,同时也能减少行为知识抽取中的人工参与。 · 研究了因果叙事的构建。本文针对归因理论中人们判断社会因果和责任的关键变量,如意图、先验知识和强制,设计并实现了面向组织行为的因果叙事生成系统。在安全领域内,从海量开源文本中抽取了组织相关的社会行为和行为前提和结果知识,并构建了行为层次结构;在计算归因模型的推理规则指导下,利用网上获取的真实社会行为和因果知识生成了可用于社会因果推理的因果叙事;最后,利用一个典型激进组织的历史数据验证社会行为和因果知识抽取的有效性,并生成因果叙事。 · 研究了面向安全事件的叙事生成。本文定义了面向安全事件的叙事结构并搭建了安全事件的叙事生成系统。在以特定安全事件为主题的海量开源文本中,抽取与该主题关联的事件及事件相关要素,并基于规则和本体知识正规化事件要素;通过事件类型、发生时间和地点判断事件间的时序和因果关系,并按照叙事结构的要求设计了针对安全事件的叙事生成方法。最后,以一个网络报道的安全相关事件为例测试了事件及事件要素抽取的有效性并利用叙事生成系统生成面向安全事件的叙事。
其他摘要With the development of information technology and the wide application of Internet, massive open source text accumulates on the Web. This brings great opportunities and challenges to the development of information extraction technology. Under the context of emergent social computing research, large amount of action knowledge from real world to support security related intelligence analysis, behavioral modeling and computational attribution model is in great demand. Therefore, extracting action knowledge from massive open source text has become a central research topic of great importance. This thesis research has systematically analyzed the approach to extract action knowledge and event information from massive open source text in security domain, and constructed causal scenarios and security stories using extracted action knowledge and event information from real online texts. The main contributions of this thesis work are as follows. · This work has developed the automatic method for extracting action knowledge. For the first time it proposes the action knowledge extraction framework based on massive open source texts, which combines statistical learning method and action knowledge reasoning. In this work, action precondition, action effect and temporal relation are extracted in parallel. Based on the semantic correlation between these three types of action knowledge, it integrates action knowledge acquired implicitly from knowledge reasoning and extracted explicitly based on information extraction, and designs a semi-supervised action knowledge extraction method that combines bootstrapping method and knowledge reasoning. The effectiveness of the proposed method was tested using the open source text from both security and e-commerce domains. In the design and implementation of action knowledge extraction method: 1) This work has designed the semantic action knowledge extraction rules for dependence parsing, which can reduce the disturbance due to the modification in sentence structure and improve matching efficiency; 2) This work has designed a method to compute semantic similarity of action knowledge and semantic rules, and developed a reliability evaluation measure by combining semantic similarity and statistical association, This method has effectively enhanced the performance of action knowledge extraction; 3) This work has proposed an action knowledge extraction strategy which integrates knowledge reasoning and bootstrapping. This strategy use...
馆藏号WXLW1885
其他标识符201018014629084
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6517
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
葛安生. 面向安全领域的文本知识抽取与叙事生成[D]. 中国科学院自动化研究所. 中国科学院大学,2013.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20101801462908(2143KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[葛安生]的文章
百度学术
百度学术中相似的文章
[葛安生]的文章
必应学术
必应学术中相似的文章
[葛安生]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。