Stacking More Linear Operations with Orthogonal Regularization to Learn Better
Xu WX(许伟翔)1,2; Cheng J(程健)1,2
2022-03
会议名称International Conference on Information Processing
会议日期2022-7
会议地点线上会议
摘要

How to improve the generalization of CNN models has been a long-lasting problem in the deep learning community. This paper presents a runtime parameter/FLOPs-free method to strengthen CNN models by stacking linear convolution operations during training. We show that overparameterization with appropriate regularization can lead to a smooth optimization landscape that improves the performance. Concretely, we propose to add a 1×1 convolutional layer before and after the original k × k convolutional layer respectively, without any non-linear activations between them. In addition, QuasiOrthogonal Regularization is proposed to maintain the added 1 × 1 filters as orthogonal matrixes. After training, those two 1 × 1 layers can be fused into the original k × k layer without changing the original network architecture, leaving no extra computations at inference, i.e. parameter/FLOPs-free.

语种英语
七大方向——子方向分类图像视频处理与分析
国重实验室规划方向分类智能计算与学习
是否有论文关联数据集需要存交
文献类型会议论文
条目标识符http://ir.ia.ac.cn/handle/173211/52091
专题复杂系统认知与决策实验室_高效智能计算与学习
作者单位1.中国科学院自动化研究所
2.中国科学院大学
第一作者单位中国科学院自动化研究所
推荐引用方式
GB/T 7714
Xu WX,Cheng J. Stacking More Linear Operations with Orthogonal Regularization to Learn Better[C],2022.
条目包含的文件 下载所有文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
ICIP2022.pdf(1126KB)会议论文 开放获取CC BY-NC-SA浏览 下载
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[Xu WX(许伟翔)]的文章
[Cheng J(程健)]的文章
百度学术
百度学术中相似的文章
[Xu WX(许伟翔)]的文章
[Cheng J(程健)]的文章
必应学术
必应学术中相似的文章
[Xu WX(许伟翔)]的文章
[Cheng J(程健)]的文章
相关权益政策
暂无数据
收藏/分享
文件名: ICIP2022.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。