CASIA OpenIR  > 学术期刊  > 自动化学报
一种基于成对字向量和噪声鲁棒学习的同义词挖掘算法
张浩宇; 王戟
发表期刊自动化学报
ISSN0254-4156
2023
卷号49期号:6页码:1181-1194
摘要同义词挖掘是自然语言处理中一项重要任务.为了构建大规模训练语料,现有研究利用远程监督、点击图筛选等方式抽取同义词种子,而这几种方式都不可避免地引入了噪声标签,从而影响高质量同义词挖掘模型的训练.此外,由于大量实体词所具有的少样本特性、领域分布差异性和预训练词向量训练目标与同义词挖掘任务的不一致性,在同义词挖掘任务中,词级别的预训练词向量很难产生高质量的实体语义表示.为解决这两个问题,提出了一种利用成对字向量和噪声鲁棒学习框架的同义词挖掘模型.模型利用预训练的成对字向量增强实体语义表示,并利用自动标注的噪声标签通过交替优化的方式,估计真实标签的分布并产生伪标签,希望通过这些改进提升模型的表示能力和鲁棒性.最后,使用WordNet分析和过滤带噪声数据集,并在不同规模、不同领域的同义词数据集上进行了实验验证.实验结果和分析表明,该同义词挖掘模型在各种数据分布和噪声比例下,与有竞争力的基准方法相比,均提升了同义词判别和同义词集合生成的效果.
关键词同义词挖掘 噪声标签学习 自然语言处理 成对字向量 信息抽取
DOI10.16383/j.aas.c210004
引用统计
文献类型期刊论文
条目标识符http://ir.ia.ac.cn/handle/173211/56131
专题学术期刊_自动化学报
推荐引用方式
GB/T 7714
张浩宇,王戟. 一种基于成对字向量和噪声鲁棒学习的同义词挖掘算法[J]. 自动化学报,2023,49(6):1181-1194.
APA 张浩宇,&王戟.(2023).一种基于成对字向量和噪声鲁棒学习的同义词挖掘算法.自动化学报,49(6),1181-1194.
MLA 张浩宇,et al."一种基于成对字向量和噪声鲁棒学习的同义词挖掘算法".自动化学报 49.6(2023):1181-1194.
条目包含的文件 下载所有文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
AAS-CN-2021-0004.pdf(1420KB)期刊论文出版稿开放获取CC BY-NC-SA浏览 下载
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[张浩宇]的文章
[王戟]的文章
百度学术
百度学术中相似的文章
[张浩宇]的文章
[王戟]的文章
必应学术
必应学术中相似的文章
[张浩宇]的文章
[王戟]的文章
相关权益政策
暂无数据
收藏/分享
文件名: AAS-CN-2021-0004.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。