CASIA OpenIR  > 博士后  > 出站报告
面向对话文本的自然语言理解——在医疗领域的实践
张元哲
2020-08
简介

对话文本理解是自然语言处理研究领域的热点和难点问题。对于对话的理解具有重要的科学研究意义和实际应用价值。例如,在医疗、电商、司法领域都存在着大量的对话文本。与普通形式的文本相比,对话文本更加困难,主要体现在:1)口语化严重;2)对话具有交互性,说话人风格不统一;3)对话具有主题性和知识性,隐式信息更多,需要额外知识引导。

本文主要面向对话形式的文本,以医疗领域对话作为实践对象,研究针对性的背景知识图谱构建、实体抽取、关系分类、实体链接和整体信息抽取问题,期望以医疗领域的研究作为基础,扩展到更多领域,或者更进一步,解决多领域的对话理解问题。

本文的主要贡献如下:

首先,探讨医疗知识图谱的构建方法,并提出一种构建症状知识图谱的方法,获得一个医疗症状图谱,作为后续工作的知识依托。

其次,提出面向对话文本的实体和关系标注数据集,医疗命名实体识别仍然采用基于序列标注的方法,明确实体的边界和类别标签,从而将口语化表达转化为规范表达;关系分类则完成了医学属性抽取的工作,采用了多种关系分类方法。此外,本章还尝试将对话文本中出现的实体链接到医疗知识图谱,从而帮助后续的自动诊断、病历质控等落地应用。

最后,提出一个面向整体对话的信息抽取方法,提出相关数据集标注方法,并提出基于深度匹配的信息抽取模型,获得对话内提及的重要医疗信息。实验结果表明本文提出的方法在窗口级别和对话级别上可以达到69.29F值,说明本方法有较好的研究前景。

综上,本文主要研究一系列针对医疗对话的文本理解方法,以识别实体、关系以及抽取信息为目标,通过在医疗领域的实践,提升针对对话文本的自然语言理解关键技术水平。

学科门类工学::计算机科学与技术(可授工学、理学学位)
关键词对话文本理解,自然语言处理,知识图谱,信息抽取,医疗对话文本
语种中文
编纂者张元哲
文献类型其他
条目标识符http://ir.ia.ac.cn/handle/173211/40120
专题博士后_出站报告
作者单位中国科学院自动化研究所
第一作者单位中国科学院自动化研究所
推荐引用方式
GB/T 7714
张元哲. 面向对话文本的自然语言理解——在医疗领域的实践. 2020-08-01.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
张元哲_博士后出站报告_final.pd(2036KB)其他 开放获取CC BY-NC-SA浏览
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[张元哲]的文章
百度学术
百度学术中相似的文章
[张元哲]的文章
必应学术
必应学术中相似的文章
[张元哲]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 张元哲_博士后出站报告_final.pdf
格式: Adobe PDF
此文件暂不支持浏览
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。