CASIA OpenIR  > 毕业生  > 博士学位论文
基于生物认知机制的视觉分类算法及其应用
其他题名Cognitive-Mechanisms-Based Visual Classification Algorithms and Their Applications
唐堂
学位类型工学博士
导师乔红
2014-05-26
学位授予单位中国科学院大学
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词视觉分类 视觉认知机制 分类算法 层级结构模型 Visual Classification Cognitive Mechanisms In Vision Classification Algorithms Hierarchical Model
摘要视觉是人类认识和理解世界的首要途径。长久以来,人们都希望能够在人工系统上复刻人类的视觉能力。其中,视觉分类是最受关注,最为核心,也是实现起来最具挑战性的视觉功能之一。同时,从实用角度看,人工视觉分类系统对于解决智能机器人,人机交互,信息检索,安全监控等应用领域中的关键问题也具有不可替代的重要意义。 在过去的十年中,伴随着图像处理,机器学习,模式识别等相关技术和领域的进步,视觉分类研究取得了一系列的标志性成果。然而,人工视觉分类系统与生物视觉系统在准确性,泛化性,稳定性和学习效率等方面依然存在着巨大的差距。与此同时,神经科学领域关于生物视觉认知机制的研究为建立更为有效和灵活的人工视觉系统提供了许多新观点和新思路。以此为出发点,本文开展了基于生物视觉认知机制的视觉分类算法和应用研究,主要贡献包括: 1.以生物视觉认知模型中常见的层级结构和最大池化机制为基础,设计了一种适用于二分类任务的结构化的分段线性分类器,并给出了相应的训练算法。相比于视觉分类任务中通常采用的线性分类器,本文所提出的新的分类器形式具有更高的分类正确率,并对常见的类别内样本的外观差异具有更好的不变性。相比于核分类器,新的分类器形式在取得相当正确率的情况下明显提高了分类过程的计算效率。 2.基于前一步工作所设计的分类器形式,通过加入模仿高级视皮层中神经元之间关系的最大池化层,对一种生物视觉认知模型-HMAX模型进行了改进。同时,依据新模型特点,本文提出了相应的特征选择方法,增量式的分类器初始构建方法和精细的模型参数优化方法,进一步地提升了新模型的分类效果。在自然图像的分类任务中,新模型取得了高于原有模型和其他改进模型的分类正确率和计算效率。 3.根据生物视觉认知模型的基本特点,提出了一种基于重构误差的判别性多子空间学习算法。通过在传统的无监督多子空间模型中引入适当设计的判别项,本工作提出的学习算法能够产生具有显著判别性的多子空间模型,且模型所预测的样本类别归属和子类别归属能够以重构误差的形式直观地体现出来。该模型为基于生物视觉认知机制的分类系统中匹配层的设计提供了更为灵活的选择。 4.将传统的视觉分类算法框架与关键的生物视觉认知机制相结合,提出了一种适用于小样本分类学习任务的视觉分类浅层模型。同时,本文进一步论证了该模型相当于一种包含隐含变量的视觉分类的概率推断模型。对于模型所包含的分类器,特征变换和特征模板的学习问题,本文分别提出了相应的有监督或无监督学习算法予以解决。在小规模自然图像数据集上的实验表明,相比于传统图像分类方法,在采用同样的局部图像特征的情况下,新的分类系统能够更高的分类正确率。 基于以上工作,本文对于生物视觉认知机制在视觉分类问题中发挥的作用进行了分析和总结。同时,相关的模型为建立更为复杂的深层结构视觉认知模型提供了基本的单元模块和算法,对进一步设计高性能的生物启发式的视觉分类方法和系统具有很好的借鉴意义。
其他摘要Vision is the primary way of realizing and understanding the world for human beings. People have long been dreaming of reproducing the human visual abilities for artificial systems. Visual classification is one of the most attractive, essential, yet challenging visual functions, while it is also of great importance for many practical applications and areas, including intelligent robot, human-machine interaction, information retrieval, security surveillance, etc. In the past decade, the research on visual classification methods has achieved a series of milestones for the advances in the related fields such as image processing, machine learning and pattern recognition. However, there are still large gaps between artificial visual classification systems and biological visual systems in accuracy, generalizability, stability and learning efficiency. Meanwhile, the new insights and ways of building artificial systems come out with the findings about visual cognitive ability from neuroscience in the recent years. Following these ideas, this thesis aims at developing visual classification algorithms inspired by cognitive mechanisms in vision, resulting in the accomplishments listed as below: 1.A novel piece-wise linear classifier applicable to binary visual classification problems is proposed, which is based on the hierarchical structure and max-pooling mechanism, while the corresponding training algorithm is also presented. Compared with the linear classifiers usually employed in the visual tasks, the proposed new method produces higher accuracy with the enhanced invariance against general intra-class variance in appearance. In comparison to other non-linear classifiers like kernel based classifiers, the proposed method achieves competitive accuracy while significantly improving the computational efficiency during prediction. 2.Based on the previous work of classifier designing, the HMAX model, which is a kind of biological visual model, is improved with the addition of new pooling layers imitating the connections between view-tuned and view-invariant neurons found in high-level visual cortex. Consequently, according to the features of the new model, the full scheme of building the model, including the methods of template selection, incremental learning for initial construction of the model and finely tuning of the model, is also specially devised. In the classification of natural images, the new model exhibits better accuracy and efficiency in comparison ...
馆藏号XWLW2021
其他标识符201118014628059
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6608
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
唐堂. 基于生物认知机制的视觉分类算法及其应用[D]. 中国科学院自动化研究所. 中国科学院大学,2014.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20111801462805(3031KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[唐堂]的文章
百度学术
百度学术中相似的文章
[唐堂]的文章
必应学术
必应学术中相似的文章
[唐堂]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。