Knowledge Commons of Institute of Automation,CAS
面向对抗样本的深度神经网络可解释性分析 | |
董胤蓬; 苏航; 朱军 | |
发表期刊 | 自动化学报 |
ISSN | 0254-4156 |
2022 | |
卷号 | 48期号:1页码:75-86 |
摘要 | 虽然深度神经网络(Deep neural networks, DNNs)在许多任务上取得了显著的效果,但是由于其可解释性(Interpretability)较差,通常被当做“黑盒”模型.本文针对图像分类任务,利用对抗样本(Adversarial examples)从模型失败的角度检验深度神经网络内部的特征表示.通过分析,发现深度神经网络学习到的特征表示与人类所理解的语义概念之间存在着不一致性.这使得理解和解释深度神经网络内部的特征变得十分困难.为了实现可解释的深度神经网络,使其中的神经元具有更加明确的语义内涵,本文提出了加入特征表示一致性损失的对抗训练方式.实验结果表明该训练方式可以使深度神经网络内部的特征表示与人类所理解的语义概念更加一致. |
关键词 | 深度神经网络 可解释性 对抗样本 视觉特征表示 |
DOI | 10.16383/j.aas.c200317 |
引用统计 | |
文献类型 | 期刊论文 |
条目标识符 | http://ir.ia.ac.cn/handle/173211/56430 |
专题 | 学术期刊_自动化学报 |
推荐引用方式 GB/T 7714 | 董胤蓬,苏航,朱军. 面向对抗样本的深度神经网络可解释性分析[J]. 自动化学报,2022,48(1):75-86. |
APA | 董胤蓬,苏航,&朱军.(2022).面向对抗样本的深度神经网络可解释性分析.自动化学报,48(1),75-86. |
MLA | 董胤蓬,et al."面向对抗样本的深度神经网络可解释性分析".自动化学报 48.1(2022):75-86. |
条目包含的文件 | 下载所有文件 | |||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
AAS-CN-2020-0317.pdf(7934KB) | 期刊论文 | 出版稿 | 开放获取 | CC BY-NC-SA | 浏览 下载 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[董胤蓬]的文章 |
[苏航]的文章 |
[朱军]的文章 |
百度学术 |
百度学术中相似的文章 |
[董胤蓬]的文章 |
[苏航]的文章 |
[朱军]的文章 |
必应学术 |
必应学术中相似的文章 |
[董胤蓬]的文章 |
[苏航]的文章 |
[朱军]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论