Knowledge Commons of Institute of Automation,CAS
Stacking More Linear Operations with Orthogonal Regularization to Learn Better | |
Xu WX(许伟翔)1,2; Cheng J(程健)1,2 | |
2022-03 | |
会议名称 | International Conference on Information Processing |
会议日期 | 2022-7 |
会议地点 | 线上会议 |
摘要 | How to improve the generalization of CNN models has been a long-lasting problem in the deep learning community. This paper presents a runtime parameter/FLOPs-free method to strengthen CNN models by stacking linear convolution operations during training. We show that overparameterization with appropriate regularization can lead to a smooth optimization landscape that improves the performance. Concretely, we propose to add a 1×1 convolutional layer before and after the original k × k convolutional layer respectively, without any non-linear activations between them. In addition, QuasiOrthogonal Regularization is proposed to maintain the added 1 × 1 filters as orthogonal matrixes. After training, those two 1 × 1 layers can be fused into the original k × k layer without changing the original network architecture, leaving no extra computations at inference, i.e. parameter/FLOPs-free. |
语种 | 英语 |
七大方向——子方向分类 | 图像视频处理与分析 |
国重实验室规划方向分类 | 智能计算与学习 |
是否有论文关联数据集需要存交 | 否 |
文献类型 | 会议论文 |
条目标识符 | http://ir.ia.ac.cn/handle/173211/52091 |
专题 | 复杂系统认知与决策实验室_高效智能计算与学习 |
作者单位 | 1.中国科学院自动化研究所 2.中国科学院大学 |
第一作者单位 | 中国科学院自动化研究所 |
推荐引用方式 GB/T 7714 | Xu WX,Cheng J. Stacking More Linear Operations with Orthogonal Regularization to Learn Better[C],2022. |
条目包含的文件 | 下载所有文件 | |||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
ICIP2022.pdf(1126KB) | 会议论文 | 开放获取 | CC BY-NC-SA | 浏览 下载 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[Xu WX(许伟翔)]的文章 |
[Cheng J(程健)]的文章 |
百度学术 |
百度学术中相似的文章 |
[Xu WX(许伟翔)]的文章 |
[Cheng J(程健)]的文章 |
必应学术 |
必应学术中相似的文章 |
[Xu WX(许伟翔)]的文章 |
[Cheng J(程健)]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论