Knowledge Commons of Institute of Automation,CAS
一种基于成对字向量和噪声鲁棒学习的同义词挖掘算法 | |
张浩宇; 王戟 | |
发表期刊 | 自动化学报
![]() |
ISSN | 0254-4156 |
2023 | |
卷号 | 49期号:6页码:1181-1194 |
摘要 | 同义词挖掘是自然语言处理中一项重要任务.为了构建大规模训练语料,现有研究利用远程监督、点击图筛选等方式抽取同义词种子,而这几种方式都不可避免地引入了噪声标签,从而影响高质量同义词挖掘模型的训练.此外,由于大量实体词所具有的少样本特性、领域分布差异性和预训练词向量训练目标与同义词挖掘任务的不一致性,在同义词挖掘任务中,词级别的预训练词向量很难产生高质量的实体语义表示.为解决这两个问题,提出了一种利用成对字向量和噪声鲁棒学习框架的同义词挖掘模型.模型利用预训练的成对字向量增强实体语义表示,并利用自动标注的噪声标签通过交替优化的方式,估计真实标签的分布并产生伪标签,希望通过这些改进提升模型的表示能力和鲁棒性.最后,使用WordNet分析和过滤带噪声数据集,并在不同规模、不同领域的同义词数据集上进行了实验验证.实验结果和分析表明,该同义词挖掘模型在各种数据分布和噪声比例下,与有竞争力的基准方法相比,均提升了同义词判别和同义词集合生成的效果. |
关键词 | 同义词挖掘 噪声标签学习 自然语言处理 成对字向量 信息抽取 |
DOI | 10.16383/j.aas.c210004 |
引用统计 | |
文献类型 | 期刊论文 |
条目标识符 | http://ir.ia.ac.cn/handle/173211/56131 |
专题 | 学术期刊_自动化学报 |
推荐引用方式 GB/T 7714 | 张浩宇,王戟. 一种基于成对字向量和噪声鲁棒学习的同义词挖掘算法[J]. 自动化学报,2023,49(6):1181-1194. |
APA | 张浩宇,&王戟.(2023).一种基于成对字向量和噪声鲁棒学习的同义词挖掘算法.自动化学报,49(6),1181-1194. |
MLA | 张浩宇,et al."一种基于成对字向量和噪声鲁棒学习的同义词挖掘算法".自动化学报 49.6(2023):1181-1194. |
条目包含的文件 | 下载所有文件 | |||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
AAS-CN-2021-0004.pdf(1420KB) | 期刊论文 | 出版稿 | 开放获取 | CC BY-NC-SA | 浏览 下载 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[张浩宇]的文章 |
[王戟]的文章 |
百度学术 |
百度学术中相似的文章 |
[张浩宇]的文章 |
[王戟]的文章 |
必应学术 |
必应学术中相似的文章 |
[张浩宇]的文章 |
[王戟]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论