Knowledge Commons of Institute of Automation,CAS
人脸与人体结构化视觉分析 | |
刘智威 | |
2020-08-20 | |
页数 | 126 |
学位类型 | 博士 |
中文摘要 | 人类是图像视频等多媒体数据中的核心元素。对图像中人类的视觉理解与分析通常对整个场景内容的解析具有重要的意义,在虚拟现实、增强现实、人机交互、视觉监控等领域有着广泛的应用前景。其中,人脸和人体的结构形态通常包含着与人相关的视觉理解过程中最有价值的信息,例如,人脸中的身份信息,表情信息。肢体中的动作信息,行为信息等。因此,他们通常是人结构中的重点分析对象。 基于全卷积网络响应图回归的人脸关键点定位算法虽然精度较高,但时序上仍缺乏稳定性。针对上述现象,我们分析得出,由于稠密关键点中大量分布在边缘的关键点位于弱纹理区,其位置具有不确定性。对该类型关键点的人工标注不可避免的存在标注随机性问题。因此在训练中会引入大量缺乏纹理信息作指导的无效误差。为了克服该问题,对于人脸结构中的任意一个关键点,本工作为数据集中每个样本引入一个无随机误差且满足样本间语义一致性的关键点真实位置,并在训练中将其看作隐变量与网络参数进行联合求解。采用求解得到的语义一致位置作为网络新的回归目标克服了直接将含有随机误差的人工标注作为回归目标的缺陷,使得网络的拟合能力集中在了真正需要的地方,最终有效提升了关键点定位网络的精度。 传统人脸识别集成算法通常依照关键点等结构信息对不同人脸图像采取统一的选裁方式来获得人脸子区域的组合,该子区域组合需要在特定的数据集贪心搜索得到。且对各个人脸子区域特征的融合是一个离线的过程。该框架存在算法复杂度过高,泛化性不足等缺点。为了设计更好的算法对人脸进行有效的视觉分析以提升人脸识别的性能,本工作研究了人脸中对身份识别最具判别性的人脸子区域的自适应选裁问题,提出了一个端到端的多模型人脸识别集成学习框架。该方法可根据不同人脸样本各自的特性自适应选裁出不同的人脸子区域组合用于身份识别。相比人工选取的固定人脸子区域组合,该自适应子区域组合中的成员判别性更强且相互之间具有互补性,结合端到端的特征融合方法,最终有效地提升了人脸识别的性能。 面向无约束场景的人体姿态估计任务中,无规则变化的人物服饰,复杂的场景,高灵活度的姿态等因素导致样本的分布极其复杂。现有主流的响应图回归法的优化目标是建立每个训练样本的人体表观信息与相应关节点坐标之间的对应关系。因此存在由于数据分布不均所导致的算法泛化性不足现象。为了利用有限的训练数据增强网络对姿态识别的鲁棒性,本工作提出了一种基于样本关系挖掘的人体姿态估计方法。该方法在回归网络中引入判别学习,通过挖掘样本关系优化高层特征对人体姿态的判别性。所提出的局部样本关系模型有效提升了姿态估计算法的性能和泛化能力。 总的来说,本文围绕图像中的人脸和人体姿态,对人脸与人体结构化视觉分析问题进行了深入的研究。针对现有算法,从理论和实际应用的角度分别提出了多种创新及改进方法,最终有效提升了算法在相关任务中的精度和鲁棒性。 |
英文摘要 | Humans are often a central element in images and videos. Understanding their posture, the social cues they communicate, and their interactions with the world is critical for holistic scene understanding and
Facial landmark detection is a key component of numerous face analysis tasks. Most existng methods rely on a heavy network to handle the complicated pose, illumination, and expression variations in unconstrained environment. Thus they cannot achieve real-time speed on low-cost handheld devices such as mobile phones. In order to design a CNN-based framework with satisfactory performance and high efficiency. We improve the existing facial landmark detection framework from two aspects. First, inspired by ICP Algorithms used in surface registration, we propose a novel nonrigid contour fitting loss to reduce the meaningless Recently, deep learning based facial landmark detection has achieved great success, especially the heatmap regression based methods. Despite this, most of these methods cannot stablely detect landmark on videos. Facial structure information provided by facial landmark can act as the prior information for some high-level facial semantic analysis task such as face recognition. Traditional face recognition framework trains multiple CNNs separately with many face patches selected by a fixed strategy. Although this selection strategy can keep semantic consistency of the selected facial regions. The same face structural region from different face images can still have different levels of discrimative abilities because of many factors including illumination, pose and occlusion. Thus the tradition framework might be lack of generalization capability for cross-database applications. In addition, offline feature aggregation method used in the existing framework is also suboptimal. In order to overcome these problems of existing methods and improve the performance of face recognition. We propose a novel end-to-end CNN ensemble architecture which automatically learns the complementary and discriminative patches for face recognition. Extensive experiments conducted on LFW and YTF datasets show that our framework outperforms the traditional face Human pose estimation is a challenging problem. Popular heatmap |
关键词 | 人脸关键点定位,人体姿态估计,人脸识别 |
语种 | 中文 |
七大方向——子方向分类 | 目标检测、跟踪与识别 |
文献类型 | 学位论文 |
条目标识符 | http://ir.ia.ac.cn/handle/173211/40390 |
专题 | 紫东太初大模型研究中心_图像与视频分析 |
推荐引用方式 GB/T 7714 | 刘智威. 人脸与人体结构化视觉分析[D]. 中科院自动化所. 中国科学院大学,2020. |
条目包含的文件 | ||||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
Thesis.pdf(6223KB) | 学位论文 | 开放获取 | CC BY-NC-SA |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[刘智威]的文章 |
百度学术 |
百度学术中相似的文章 |
[刘智威]的文章 |
必应学术 |
必应学术中相似的文章 |
[刘智威]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论