Knowledge Commons of Institute of Automation,CAS
一种基于样本空间的类别不平衡数据采样方法 | |
张永清; 卢荣钊; 乔少杰; 韩楠; GUTIERREZLouisAlberto; 周激流 | |
发表期刊 | 自动化学报
![]() |
ISSN | 0254-4156 |
2022 | |
卷号 | 48期号:10页码:2549-2563 |
摘要 | 不平衡数据是机器学习中普遍存在的问题并得到广泛研究,即少数类的样本数量远远小于多数类样本的数量.传统基于最小化错误率方法的不足在于:分类结果会倾向于多数类,造成少数类的精度降低,通常还存在时间复杂度较高的问题.为解决上述问题,提出一种基于样本空间分布的数据采样方法,伪负样本采样方法.伪负样本指被标记为负样本(多数类)但与正样本(少数类)有很大相关性的样本.算法主要包括3个关键步骤:1)计算正样本的空间分布中心并得到每个正样本到空间中心的平均距离; 2)以同样的距离计算方法计算每个负样本到空间分布中心的距离,并与平均距离进行比较,将其距离小于平均距离的负样本标记为伪负样本; 3)将伪负样本从负样本集中删除并加入到正样本集中.算法的优势在于不改变原始数据集的数量,因此不会引入噪声样本或导致潜在信息丢失;在不降低整体分类精度的情况下,提高少数类的精确度.此外,其时间复杂度较低.经过13个数据进行多角度实验,表明伪负样本采样方法具有较高的预测准确性. |
关键词 | 不平衡数据 样本空间 机器学习 采样方法 空间中心 |
DOI | 10.16383/j.aas.c200034 |
引用统计 | |
文献类型 | 期刊论文 |
条目标识符 | http://ir.ia.ac.cn/handle/173211/56271 |
专题 | 学术期刊_自动化学报 |
推荐引用方式 GB/T 7714 | 张永清,卢荣钊,乔少杰,等. 一种基于样本空间的类别不平衡数据采样方法[J]. 自动化学报,2022,48(10):2549-2563. |
APA | 张永清,卢荣钊,乔少杰,韩楠,GUTIERREZLouisAlberto,&周激流.(2022).一种基于样本空间的类别不平衡数据采样方法.自动化学报,48(10),2549-2563. |
MLA | 张永清,et al."一种基于样本空间的类别不平衡数据采样方法".自动化学报 48.10(2022):2549-2563. |
条目包含的文件 | 下载所有文件 | |||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
AAS-CN-2020-0034.pdf(1944KB) | 期刊论文 | 出版稿 | 开放获取 | CC BY-NC-SA | 浏览 下载 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[张永清]的文章 |
[卢荣钊]的文章 |
[乔少杰]的文章 |
百度学术 |
百度学术中相似的文章 |
[张永清]的文章 |
[卢荣钊]的文章 |
[乔少杰]的文章 |
必应学术 |
必应学术中相似的文章 |
[张永清]的文章 |
[卢荣钊]的文章 |
[乔少杰]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论