CASIA OpenIR  > 毕业生  > 博士学位论文
基于深度学习的特征表示和图像分类方法研究
其他题名Research on Deep Learning based Feature Representation and Image Classification
刘炳源
学位类型工学博士
导师卢汉清
2015-05-27
学位授予单位中国科学院大学
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词图像表示 图像分类 特征表示 深度学习 稀疏约束 空间信息 Image Representation Image Classification Feature Learning Deep Learning Sparse Constraints Spatial Information
摘要图像理解是指让计算机能够像人类一样分析和理解真实世界中的图像,获取图像中包含的语义信息,完成分类、识别、检测和检索等任务。它是计算机视觉、模式识别和机器学习等领域最基本和最有挑战性的问题,吸引了越来越多研究者的兴趣。与此同时,图像理解技术在很多领域表现出了巨大的应用前景,如智慧城市、移动智能终端、图像管理和检索等。 如何构建图像特征表示和分类模型是解决图像理解问题的关键,很多研究者进行了广泛的研究并提出了一些有效的方法。传统的方法大部分是基于视觉码本模型,该模型很好的利用了人工巧妙设计的图像描述和有效的机器学习模型。但它对图像中层结构和高层语义信息的表示力有限,无法突破“语义鸿沟”。近年来,深度学习的突破性发展为解决这一问题提供了新的思路,并在许多模式识别问题中得到成功应用。本文主要探讨深度学习方法在图像特征表示与分类任务中的具体应用与改进技术。具体来说,首先对各种图像特征表示和分类方法进行综述,主要分析了传统的视觉码本模型和新兴的深度学习方法的优缺点,在此基础上借鉴生物视觉认知的一些特性进行了深入的研究和改进,提出了一些有效的图像特征表示和分类方法。本文的主要成果和贡献包含以下几个方面: 1. 提出了一种基于非负稀疏和选择性约束的深度特征学习方法。该方法受一些生物视觉认知的研究成果启发,克服了之前的深度模型缺乏判别力和选择性的问题。所构建的融合非负稀疏和选择性正则的深度反卷积网络可以有效的学习图像的层级结构特征,即从底层边缘到中层几何结构,再到高层语义信息。通过增强特征的非负稀疏性,本方法学习到了更加合理的特征,而通过增强模型选择性,整个网络的判别力得到了提升。大量的实验结果证明了所提出方法的有效性,并在多个常用图像数据库上提高了分类性能。 2. 提出了一种物体检测信息指导的深度反卷积特征学习模型,用以克服之前的深度模型缺乏丰富的高层语义指导和缺乏空间位置信息的问题。该方法首先采用非监督学习的方式对反卷积网络进行预训练,其中引入了非负性约束帮助得到更合理的特征。然后提出了一种物体检测信息指导的有监督算法对预训练后的网络进行精调,提升了所学特征的表示力和判别力。大量的实验验证了本文方法对表征图像层级结构特征的有效性,并在多个常用图像数据库上提升了图像分类的性能。 3. 提出了一种基于深度外观和空间信息编码的图像表示框架。所提出方法利用了传统的图像表示模型和深度学习模型各自的优势,克服了传统方法中存在的外观信息损失、缺乏空间信息和高层语义指导的问题。首先提出了一种耦合深层独立子空间分析和稀疏受限制玻尔兹曼机的模型,对图像块进行特征学习和编码。然后,基于结构稀疏选择提出了一种自适应空间编码方法,用于学习图像中有判别力的空间信息。最后基于上述模型构建了联合优化的深度学习模型,并通过“非监督预训练/有监督精调”的方式进行模型学习。大量的实验证明了所提出方法可以得到更有效的图像特征,进而提高了图像分类的性能。 4. 提出了一种基于深度关键部件学习的场景分类方法。该方法利用...
其他摘要Image understanding aims to make computer understand the natural images like human being, which is important for the tasks of image representation, image classification, image retrieval and other vision tasks. As one of the most fundamental and challenging problems in computer vision, it gains significant research interest. Meanwhile, image understanding has increasing potentials in many industrial applications, such as smart city, mobile smart device, image organization and retrieval. How to build a suitable feature representation and a good classification model is critical for image understanding. Many researchers have focused on the problem and proposed several effective methods, in which the Bag-of-Feature (BoF) model is achieved more attention in the past ten years. The BoF model takes advantages of carefully hand-designed features and powerful machine learning models. However, it is hard to represent complex image information, e.g., mid-level image structures and high-level semantic information. Over the recent years, the rapid development of deep learning presents another promising research direction to breakthrough ‘semantic gap’. How to build deep learning models for image representation and classification becomes an urgent issue and is also the main focus of this dissertation. We will first overview the previous image representation and classification methods, including the traditional BoF-based methods and deep learning models. Based on the analysis of their advantages and disadvantages, we propose several effective image representation and classification methods, which are also motivated by some biological vision cognition evidences. The main contributions of this dissertation are presented as follows: 1. A regularized hierarchical feature learning method with non-negative sparsity and selectivity is proposed. This method is proposed to address the problems of lacking discrimination and selectivity in the previous deep models. A non-negative sparsity and selectivity regularized deep deconvolutional network is developed, and the network can learn image features from low-level edges, to mid-level structures and high-level information. The regularization on non-negative sparsity makes the learned features more explainable, and the regularization of the selectivity enhance the discrimination of the networks. Extensive experimental results demonstrate the effectiveness of the proposed method in feature learning and image classification...
其他标识符201218014628047
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6705
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
刘炳源. 基于深度学习的特征表示和图像分类方法研究[D]. 中国科学院自动化研究所. 中国科学院大学,2015.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20121801462804(13290KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[刘炳源]的文章
百度学术
百度学术中相似的文章
[刘炳源]的文章
必应学术
必应学术中相似的文章
[刘炳源]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。