Knowledge Commons of Institute of Automation,CAS
面向对话文本的自然语言理解——在医疗领域的实践 | |
张元哲 | |
2020-08 | |
简介 | 对话文本理解是自然语言处理研究领域的热点和难点问题。对于对话的理解具有重要的科学研究意义和实际应用价值。例如,在医疗、电商、司法领域都存在着大量的对话文本。与普通形式的文本相比,对话文本更加困难,主要体现在:1)口语化严重;2)对话具有交互性,说话人风格不统一;3)对话具有主题性和知识性,隐式信息更多,需要额外知识引导。 本文主要面向对话形式的文本,以医疗领域对话作为实践对象,研究针对性的背景知识图谱构建、实体抽取、关系分类、实体链接和整体信息抽取问题,期望以医疗领域的研究作为基础,扩展到更多领域,或者更进一步,解决多领域的对话理解问题。 本文的主要贡献如下: 首先,探讨医疗知识图谱的构建方法,并提出一种构建症状知识图谱的方法,获得一个医疗症状图谱,作为后续工作的知识依托。 其次,提出面向对话文本的实体和关系标注数据集,医疗命名实体识别仍然采用基于序列标注的方法,明确实体的边界和类别标签,从而将口语化表达转化为规范表达;关系分类则完成了医学属性抽取的工作,采用了多种关系分类方法。此外,本章还尝试将对话文本中出现的实体链接到医疗知识图谱,从而帮助后续的自动诊断、病历质控等落地应用。 最后,提出一个面向整体对话的信息抽取方法,提出相关数据集标注方法,并提出基于深度匹配的信息抽取模型,获得对话内提及的重要医疗信息。实验结果表明本文提出的方法在窗口级别和对话级别上可以达到69.29的F值,说明本方法有较好的研究前景。 综上,本文主要研究一系列针对医疗对话的文本理解方法,以识别实体、关系以及抽取信息为目标,通过在医疗领域的实践,提升针对对话文本的自然语言理解关键技术水平。 |
学科门类 | 工学::计算机科学与技术(可授工学、理学学位) |
关键词 | 对话文本理解,自然语言处理,知识图谱,信息抽取,医疗对话文本 |
语种 | 中文 |
编纂者 | 张元哲 |
文献类型 | 其他 |
条目标识符 | http://ir.ia.ac.cn/handle/173211/40120 |
专题 | 博士后_出站报告 |
作者单位 | 中国科学院自动化研究所 |
第一作者单位 | 中国科学院自动化研究所 |
推荐引用方式 GB/T 7714 | 张元哲. 面向对话文本的自然语言理解——在医疗领域的实践. 2020-08-01. |
条目包含的文件 | ||||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
张元哲_博士后出站报告_final.pd(2036KB) | 其他 | 开放获取 | CC BY-NC-SA | 浏览 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[张元哲]的文章 |
百度学术 |
百度学术中相似的文章 |
[张元哲]的文章 |
必应学术 |
必应学术中相似的文章 |
[张元哲]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论