CASIA OpenIR  > 毕业生  > 博士学位论文
基于属性建模和知识学习的大规模图像检索
其他题名Research on Attribute-Modeling and Knowledge-Learning based Large-scale Image Retrieval
傅建龙
学位类型工程博士
导师卢汉清
2015-05-27
学位授予单位中国科学院大学
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词属性建模 知识学习 图像检索 图像标注 Attribute Modeling Knowledge Learning Image Retrieval Image Tagging
摘要随着移动互联网和云存储技术的发展,以及移动媒体应用与社交网络的出现,近年来多媒体数据(文本、图像和视频等)呈现出指数级爆炸式增长的趋势。图像数据作为多媒体数据的一种重要表现形式,具有表达能力强,信息丰富的特点,受到人们的广泛关注。然而,图像数据的迅速增长给传统人工管理和分析的方式带来了巨大的机遇和挑战,成为多媒体和计算机视觉领域的研究热点之一。 本文以计算机视觉技术为基础,研究大规模图像检索的理论方法和实际应用。采用视觉码本学习,中层属性建模,语义概念学习等方法进行多层次的属性建模和知识学习,以此建立底层特征与高层语义之间的可靠关联,实现大规模图像检索。从底层特征到高层语义,一方面是对非结构化的图像数据进行量化分析,将海量的图像数据转化为丰富的底层视觉特征进行表达和存储;另一方面是建立底层视觉特征到高层语义的映射,建立索引并通过检索技术进行匹配和查询,从而为人们提供获取信息和管理数据的有效手段。本文主要研究内容和贡献如下: 1. 基于空间约束的商标图像建模与检索。针对单一底层视觉特征难以解决“语义鸿沟”的问题,本文引入不同种类特征间存在的空间关系对底层视觉特征进行约束,同时提出一种局部特征的动态融合技术,构建鲁棒的具有空间约束的特征描述子。依赖伪反馈技术,该方法能够自动地选择不同图像之间最具表达力的特征。实验表明该方法在商标图像的检索和识别任务中可有效地减少特征间的错误匹配,提高准确率。 2. 基于结构学习的图像中层属性表达和分类。针对人工定义的图像属性难以充分表达图像内容中存在的视觉特性,本文提出一种数据驱动的图像中层属性建模方法。该方法结合非监督的谱聚类和结构化约束的特征选择技术构建优化目标函数,自动地学习每一类图像中特有的视觉属性,形成有效的图像中层属性表达。实验表明以中层属性为基础构建的特征描述,可在图像分类任务中取得较高的准确率。 3. 基于结构属性的大规模服装商品检索。针对底层视觉特征缺少高层语义描述的问题,本文结合人体部件检测的最新研究进展,提出嵌入人体结构属性对底层特征进行有效约束,形成具有人体结构属性的视觉特征词组。依赖有效的高阶查询和具有结构约束的倒排索引,实验表明在大规模服装商品图像的检索任务中,该方法在有效地减少“语义鸿沟”提高检索准确率的同时,检索效率也得到提升。 4. 基于多视角知识学习的图像标注与检索。本文提出基于模型和无模型共存的多视角语义概念建模方法。该方法利用搜索引擎中的用户点击数据建立底层视觉特征和高层语义查询之间的隐性关联,对高层语义概念建立多视角的视觉知识库,并将视觉知识嵌入到标注模型。实验表明在标准数据库上,该方法取得的标注和检索性能均有显著提升。 5. 基于语义实体关系和知识传播的图像标注与检索。针对目前个人照片集缺少准确的语义描述集合和大规模训练数据的问题,本文提出通过知识学习的方法自动挖掘个人照片数据中的语义实体结构。借助已有的大规模网络训练图像,提出利用无监督的自动编码机在两个图像集合中学习共有的中层属性, 并以实体关...
其他摘要The advent of mobile devices and media cloud services has led to the unprecedented growing of multimedia data, including texts, images and videos. Because of the high visual representativeness, image data has drawn great attention from both the industrial and research areas. However, the great number of images poses grand challenges to the traditional image analysis and management, which is often conducted by humans. Therefore, how to manage image content in an automatical way has been a heated research topic in the areas of both multimedia analysis and computer vision. In this paper, we conduct research on large-scale image retrieval in terms of its theory and application, based on computer vision techniques. To map low-level visual features to high-level semantic concepts, we propose a holistic hierarchical learning framework. On one hand, we present how to transform and store the unstructured image data in the real world to the low-level visual features in computer vision. On the other, we show how to map the low-level features to the high-level semantic concepts that can be understood by humans. Meanwhile we discuss efficient indexing techniques for fast image retrieval, and finally provide an effective way for data accessing and managing. The main contributions of this paper are listed as follows: 1. Effective logo modeling and retrieval based on spatial constraints of visual features. In this section, we propose to leverage the geometric relationships among different types of features as an effective spatial constraint to model logo images. Specifically, to build robust visual description, we propose to fuse spatial-related local features by adaptive weighting, and thus we can find the most representative feature combination to different logo images. Extensive experiments show that this approach can significantly reduce the feature mismatch and improve the accuracy for both image retrieval and recognition. 2. Image categorization based on middle-level attributes and structure learning. In this section, we propose an unsupervised approach to learn the visual attributes that characterize an object class. Specifically, to ensure the learned visual attributes to be visually recognizable and representative, in contrast to manually constructed attributes, we adopt a joint spectral clustering with a sparse feature selection scheme. Extensive experiments show that this approach not only learns clean and intuitive attributes of object classes, but also ac...
其他标识符201218014628037
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6715
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
傅建龙. 基于属性建模和知识学习的大规模图像检索[D]. 中国科学院自动化研究所. 中国科学院大学,2015.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20121801462803(9435KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[傅建龙]的文章
百度学术
百度学术中相似的文章
[傅建龙]的文章
必应学术
必应学术中相似的文章
[傅建龙]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。