CASIA OpenIR  > 学术期刊  > 自动化学报
一种基于成对字向量和噪声鲁棒学习的同义词挖掘算法
张浩宇; 王戟
Source Publication自动化学报
ISSN0254-4156
2023
Volume49Issue:6Pages:1181-1194
Abstract同义词挖掘是自然语言处理中一项重要任务.为了构建大规模训练语料,现有研究利用远程监督、点击图筛选等方式抽取同义词种子,而这几种方式都不可避免地引入了噪声标签,从而影响高质量同义词挖掘模型的训练.此外,由于大量实体词所具有的少样本特性、领域分布差异性和预训练词向量训练目标与同义词挖掘任务的不一致性,在同义词挖掘任务中,词级别的预训练词向量很难产生高质量的实体语义表示.为解决这两个问题,提出了一种利用成对字向量和噪声鲁棒学习框架的同义词挖掘模型.模型利用预训练的成对字向量增强实体语义表示,并利用自动标注的噪声标签通过交替优化的方式,估计真实标签的分布并产生伪标签,希望通过这些改进提升模型的表示能力和鲁棒性.最后,使用WordNet分析和过滤带噪声数据集,并在不同规模、不同领域的同义词数据集上进行了实验验证.实验结果和分析表明,该同义词挖掘模型在各种数据分布和噪声比例下,与有竞争力的基准方法相比,均提升了同义词判别和同义词集合生成的效果.
Keyword同义词挖掘 噪声标签学习 自然语言处理 成对字向量 信息抽取
DOI10.16383/j.aas.c210004
Citation statistics
Document Type期刊论文
Identifierhttp://ir.ia.ac.cn/handle/173211/56131
Collection学术期刊_自动化学报
Recommended Citation
GB/T 7714
张浩宇,王戟. 一种基于成对字向量和噪声鲁棒学习的同义词挖掘算法[J]. 自动化学报,2023,49(6):1181-1194.
APA 张浩宇,&王戟.(2023).一种基于成对字向量和噪声鲁棒学习的同义词挖掘算法.自动化学报,49(6),1181-1194.
MLA 张浩宇,et al."一种基于成对字向量和噪声鲁棒学习的同义词挖掘算法".自动化学报 49.6(2023):1181-1194.
Files in This Item: Download All
File Name/Size DocType Version Access License
AAS-CN-2021-0004.pdf(1420KB)期刊论文出版稿开放获取CC BY-NC-SAView Download
Related Services
Recommend this item
Bookmark
Usage statistics
Export to Endnote
Google Scholar
Similar articles in Google Scholar
[张浩宇]'s Articles
[王戟]'s Articles
Baidu academic
Similar articles in Baidu academic
[张浩宇]'s Articles
[王戟]'s Articles
Bing Scholar
Similar articles in Bing Scholar
[张浩宇]'s Articles
[王戟]'s Articles
Terms of Use
No data!
Social Bookmark/Share
File name: AAS-CN-2021-0004.pdf
Format: Adobe PDF
All comments (0)
No comment.
 

Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.