CASIA OpenIR  > 毕业生  > 博士学位论文
基于区域的图像理解技术研究及其应用
其他题名research on key technologies of region based image understanding and its applications
刘偲
学位类型工程博士
导师卢汉清
2012-05-30
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词图像理解 图像标注 图像检索 特征选择 图模型 弱监督学习 信息熵 Image Understanding Image Annotation Image Retrieval Feature Selection Graph Model Weakly Supervised Learning Information Entropy
摘要图像理解技术是计算机视觉的一个重要课题,在很多方面有应用前景,因此受到了学术界和工业界的广泛重视。本文从区域分析的角度,从图像区域标注,图像搜索,图像编辑三个方面来改善图像理解的性能。区域是存在于局部特征点和全局图像之间的一个中间的语义单元。相比于局部特征点,区域能够保持更加丰富而完整的语义,能够从一定程度上减少语义鸿沟;相比于全局图像,基于区域的特征表示更加灵活,能够部分解决图像配准的问题。图像的区域一般是通过图像分割或者物体检测得到,而从图像区域内部提取的高维特征一般都存在噪声和冗余。如何从大量的无关特征中提取最有信息量的特征子集也是一个难题。 虽然区域分析在图像理解中起到了举重轻重的作用,但是这方面的研究工作却不多。因此,本文从以下四个方面,全面的考虑了区域分析在图像理解中的应用: (1) 图像特征的自适应选择。近年来,越来越多的特征,例如颜色,纹理,形状特征等,都被证明可以增强计算机视觉系统的性能。但是在移动设备中,由于存储空间和计算能力的限制,如何在保证系统性能不降低的前提下,有效地选择少量最关键的特征是一个亟待解决的问题。 (2) 图像区域的自动标注。 随着互联网上用户标注图像数目的快速增加,如何根据图像的标注,自动地估计像素的标注,从而更完备地理解图像内容是一个颇受研究者们重视的问题。由于图像的标注和像素的标注的层次不同,因而跨层的标注传递是极其困难的。 (3) 跨场景的图像检索。图像检索是图像理解的一个重要任务。现有的大量的工作都集中研究同一个域内部的图像检索问题。 但是如何在查询图像和数据库图像来自不同域的情况下,依然保证搜索的准确性就成为非常有挑战性的问题。 (4) 图像的自动编辑。图像编辑,由于其潜在的巨大娱乐价值,收到了工业界的极大重视。 但是当下实用的图像编辑系统都是由专业的图像编辑人员使用特定的图像编辑软件实现的。 如何实现大规模图像集的自动编辑是一个极有意义而极具挑战性的问题。 本文中,针对上述几个问题,我们在模式识别、计算机视觉、多媒体、机器学习等技术方面做了以下研究工作: (1) 提出了基于信息熵的自适应特征选择方法,该方法能有效地选择最有判别力的特征,并且能自动地决定有效特征的个数。 (2) 提出了基于图模型的弱监督协同图像解析方法,该方法结合多示例学习以及图模型的思想,根据图像级别的标注,推断出像素级别的标注。 (3) 提出了一种跨场景图像检索方法。为了减少查询图像和待搜索数据库这两个不同场景图像之间的差异,我们提出先对人体部位配准,然后借助辅助集多任务重构的方法。该方法可以用于移动设备中的服装搜索,当用户拍摄一件衣服之后,我们的系统可以自动地从在线购物网站找寻相似的服装。 (4) 架构了一套自动的图像编辑系统,使得大规模的图像编辑成为可能。该系统的一个典型应用就是自动编辑用户移动设备中的个人照片,增强手机用户的娱乐体验。 总的说来,本文针对基于区域的图像理解技术及其应用做了有益的探索。
其他摘要Image understanding technique is an important topic in computer vision. It has many applications and thus receives extensive attention in academia and industry. In this thesis, we explore how image region annotation, image retrieval and image editing can benefit from region analysis. Region is an intermediate semantic unit between the local feature points and global image. Compared to the local feature points, the region is able to maintain the richer semantics, and to some extent reduce the semantic gap; compared to the global image, the region is more flexible, and can serve as a partial solution to the image registration problem. Region is always obtained by image segmentation or object detection, and the high-dimensional features extracted from the image region generally contain noise and redundancy. How to extract the most informative feature subset and filter out a large number of irrelevant features is also a problem. Although region analysis has played a very important role in image understanding, research in this area is scary. Therefore, this thesis comprehensively considers the applications of the region analysis in image understanding from the following four aspects: (1) Automatic image feature selection. In recent years, different kinds of features, such as color, texture and shape features have shown to be able to enhance the performance of computer vision systems. However, current mobile systems still suffer from limited storage space and computing power. Therefore, how to effectively select a small amount of the most critical features without degrading the system's performance is a problem to be solved. (2) Automatic image region annotation. As more and more images with user-generated tags are available in the internet, how to automatically infer image pixel's tags based on the image tags attracts growing attentions. Because image and pixels lie in different levels, the cross-level tag transfer task is extremely difficult. (3) Cross-scenario image retrieval. Image retrieval is an important branch of image understanding. Most existing work focus on image retrieval within one domain. How to guarantee the search accuracy when query image and database lie in different domain is a challenging problem. (4) Automatic image editing. Image editing, due to its potentially huge market value, has received great attention from industry. However, currently the applicable image editing is manually done by experts with professional software. How to...
馆藏号XWLW1726
其他标识符200818014628044
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6460
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
刘偲. 基于区域的图像理解技术研究及其应用[D]. 中国科学院自动化研究所. 中国科学院研究生院,2012.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20081801462804(11113KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[刘偲]的文章
百度学术
百度学术中相似的文章
[刘偲]的文章
必应学术
必应学术中相似的文章
[刘偲]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。