CASIA OpenIR  > 毕业生  > 硕士学位论文
形变卷积核的研究与视觉应用
马佳彬1,2
学位类型工程硕士
导师王亮
2018-05-22
学位授予单位中国科学院研究生院
学位授予地点北京
关键词深度神经网络 不规则卷积核 旋转线形卷积核 计算机视觉
其他摘要
       大数据时代背景下,深度学习得到了快速的发展,并在社会各行业产生重大影响。卷积神经网络是深度学习的一个分支,在计算机视觉任务上应用广泛。因其出色的表现而得到提升的代表性算法如人脸识别、目标检测、图像分割等,现已经在安防、自动驾驶、医疗等多个领域发挥作用。
       卷积神经网络由各个卷积层组合而成,而每个卷积层都由各自的卷积核确定输出响应。本文提出的形变卷积核的方案,即立足于从卷积核的角度改进神经网络,致力于从微观层面改进卷积神经网络的结构从而得到更加准确有效的响应。
       从提升网络建模能力和压缩网络冗余参数两个不同的方面考虑,本文共提出了两种不同的形变方案。具体研究内容如下:
       提出了一种形状不规则的卷积核的学习算法。我们通过赋予卷积核以形状属性,得到了不规则卷积神经网络 ICNN。与使用规则卷积核的传统卷积神经网络不同,我们的算法在理论上可以学习任意的卷积核形状,以更好地适应不同的输入特征。也就是说,形状是和权重一样的可学习变量。借助于基本的反向传播算法,两者可以同时在端对端的训练中得到学习。我们使用对形状最敏感的图像分割任务检验本算法的有效性。
       提出了一种可旋转的线形卷积核的学习算法 RotateConv。我们设计使用最简单的几何形状,线段,来作为新的卷积核形状。但我们还赋予了卷积核旋转的能力,以用来帮助网络学习不同角度的特征。同样借助于基本的反向传播算法,卷积核的权重和角度可以在训练中同时学习。在是否使用权重共享的基础上,我们一共提出了参数量分别为2和4的两个版本的卷积核,而这相较于基本9参数的3x3卷积核来说已经压缩了非常多。
       实验表明,形变可以改变卷积操作的采样方式,提取更加有价值的信息,从而使神经网络获得更好的结果。
;
    In the background of the era of big data, deep learning has developed rapidly and made a great impact on all sectors of society. The Convolutional Neural Network (CNN) is a branch of deep learning, which is widely used in computer vision. The algorithms improved by CNN like face recognition, object detection and image segmentation have been playing a role in many fields like security, autopilot and medical treatment.
    For CNN, neural network is composed by layers, and convolutional layers' responses are determined by kernels. The approaches of deformable convolutional kernels proposed in this paper are devoted to improve the micro structure of Convolutional Neural Networks through convolutional kernels.
    Considering two aspects as expanding modeling capacity and reducing redundant parameters, we all propose two different deformations as follows:
    This paper proposes a new method to learn irregular convolutional kernels. In this paper, we equip convolutional kernels with shape attributes to generate the deep Irregular Convolutional Neural Networks (ICNN). Compared with traditional CNN applying regular convolutional kernels like 3x3, our approach trains irregular kernel shapes to better fit the geometric variations of input features. In other words, shapes are learnable parameters in addition to weights. The kernel shapes and weights are learned simultaneously during end-to-end training with the standard back-propagation algorithm. Experiments for semantic segmentation are implemented to validate the effectiveness of our proposed ICNN.
    We propose a new method, RotateConv, to learn asymmetric and rotatable convolutional kernels. The new shape is extremely simple as a line segment one, and we equip it with the rotatable ability which aims to learn diverse features with respect to different angles. The kernel weights and angles are learned simultaneously during end-to-end training via the standard back-propagation algorithm. There are two variants of RotateConv that only have 2 and 4 parameters respectively depending on whether using weight sharing, which are much compressed than the normal 3x3 kernel with 9 parameters.
    Experiments show that deformation changes the sampling method for convolutional kernels, helps extract more valuable information from input and gets better results for neural networks.
 
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/21046
专题毕业生_硕士学位论文
作者单位1.中国科学院自动化研究所
2.中国科学院大学
推荐引用方式
GB/T 7714
马佳彬. 形变卷积核的研究与视觉应用[D]. 北京. 中国科学院研究生院,2018.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
马佳彬硕士毕业论文-中科院自动化研究所-(15089KB)学位论文 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[马佳彬]的文章
百度学术
百度学术中相似的文章
[马佳彬]的文章
必应学术
必应学术中相似的文章
[马佳彬]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。