CASIA OpenIR  > 多模态人工智能系统全国重点实验室  > 视频内容安全
基于卷积神经网络的视觉目标跟踪算法研究
李振邦
2021
Pages130
Subtype博士
Abstract

视觉目标跟踪是计算机视觉领域中最重要和最具挑战性的研究课题之一,在智能监控、自动驾驶等领域有着广阔的应用前景。视觉目标跟踪任务的核心是估计图像序列的每帧中目标的运动状态。目标跟踪是计算机视觉领域的中层部分,为目标的行为理解提供了基础,因此具有非常重要的理论研究价值。同时,它具有广泛的实际应用,包括视频监控、交通流量监控、视频压缩和人机交互等。然而,目标跟踪领域存在很多理论和技术问题有待解决,如运动模糊、光照变化、非刚性目标的形变、视角的变化导致的目标旋转、遮挡等。近年来深度学习的突破为解决目标跟踪中的一系列问题带来了可能。深度学习是基于人工神经网络的机器学习方法。在过去的十年中,深度学习技术得到了飞速发展,已成功应用于计算机视觉、语音识别、自然语言处理、社交网络过滤、机器翻译、生物信息学、药物设计等领域。如何利用深度学习方法,尤其是深度卷积神经网络解决跟踪过程中遇到的复杂问题,具有较大的研究价值和研究空间。本文利用卷积神经网络强大的表征能力,对视觉目标跟踪算法的特征表示、表观模型建模、运动模型建模、模型自适应等方面进行了改进,有效提高了算法的性能。同时,本文将对抗性信息应用到视觉目标跟踪任务中,以研究视觉目标跟踪算法相对于对抗样本的鲁棒性。本文的主要工作和贡献概括如下:•提出了一种语义信息引导的视觉目标跟踪算法。该算法利用卷积神经网络获得目标的语义信息,用于约束跟踪器的训练过程,从而提高跟踪的效果。具体而言:首先,本文提出了实例引导的相关滤波器,利用卷积神经网络学习图像的实例级别的语义分割模板,从而约束相关滤波器的学习。其次,针对离线训练的语义分割结果和在线学习的相关滤波结果具有互补性这一特点,本文提出了跟踪结果的自校正机制,利用分割结果校正相关滤波结果。本文在多个具有挑战性的视觉目标跟踪数据库上验证了这些创新点在视觉目标跟踪应用中的有效性。•提出了一种空间信息增强的视觉目标跟踪算法。该算法主要在运动模型方面对基于孪生网络的视觉目标跟踪算法进行优化。具体而言:本文为孪生跟踪网络引入了更丰富的空间信息,即始终在整个图像平面内感知物体的位置信息,能够弥补传统的局部搜索机制中目标搜索范围有限的缺点,从而有效地减少累积误差并提高鲁棒性。为了进一步减轻近似物体的干扰,本文提出了一个端到端训练的轨迹预测模块,能够利用物体的历史轨迹信息和当前帧的表观信息,预测目标在当前帧的每个空间位置上出现的可能性。本文在多个视频跟踪标准评测库上验证了这些创新点的有效性,并大幅度提高了跟踪算法的准确性和鲁棒性。•提出了一种时间信息增强的视觉目标跟踪算法。该算法主要在特征提取方面对基于孪生网络的视觉目标跟踪算法进行优化。首先,本文从基于孪生网络的在线视频跟踪算法鲁棒性不足问题出发,将时间信息引入在线视觉目标跟踪中。通过来自相邻帧的目标表观信息的聚合,使得目标表观特征更加丰富,弥补基于孪生网络的视觉目标跟踪算法局限于从单帧提取目标表观,对目标表观表示能力不足的缺点,从而提高跟踪的效果,实现鲁棒的跟踪。在端到端时间聚合的基础上,本文通过引入对抗性杄杲杯杰杯杵杴模块,并通过在大规模数据集上端到端训练,使得孪生网络跟踪器在目标由于运动模糊等导致的表观不佳的情况下具有更好的表现,从而进一步提高跟踪的鲁棒性。本文在目前流行的视觉目标跟踪评测库上进行了算法的对比实验以及成分分析实验,从而验证算法改进的有效性。•提出了一种自适应信息增强的视觉目标跟踪算法。该算法主要在模型自适应方面对基于孪生网络的视觉目标跟踪算法进行优化。本文为孪生跟踪网络引入了自适应信息,通过对模板图像的像素进行轻微扰动,从而改善孪生网络跟踪器对于特定目标的跟踪性能。该自适应性信息通过对模板图像进行梯度的反向传播计算得到,能够以即插即用的方式轻松添加到现有孪生网络跟踪器中,而无需修改网络模型的参数。在线跟踪时,仅在第一帧进行数次梯度传播和模板图像像素值更新,即可实现实时目标跟踪。本文同样在多个视觉目标跟踪评测库上验证了算法的有效性,并在精确度与实时性上取得了较好的结果。•将对抗性信息应用于基于孪生网络的视觉目标跟踪算法。该算法将对抗性信息应用到孪生跟踪网络中,以研究视觉目标跟踪算法相对于对抗样本的鲁棒性。具体而言,本文为基于孪生网络的视觉目标跟踪算法生成视频无关的通用扰动,从而使得跟踪器做出错误的行为。所提出的对抗性扰动信息通过离线的大规模视觉目标跟踪数据集训练得到,可在占用极少计算资源的情况下对任意视频进行有效攻击。本文在多个视觉目标跟踪标准评测库上验证了所提出的对抗性信息的有效性,同时验证了其在不同主干网络和不同跟踪框架之间的可迁移性。

Other Abstract

Visual object tracking is one of the most important and challenging research topics in the field of computer vision, and it has potential and broad application prospects in the fields of intelligent surveillance and autonomous driving. The goal of visual object tracking is to estimate the motion state of the target in each frame of the image sequences. Visual object tracking is the middle level of the computer vision field, which provides a basis for activity understanding, so it has very important theoretical research value. At the same time, it has a wide range of practical applications, including video surveillance, traffic flow monitoring, video compression, and human-computer interaction. However, there are many theoretical and technical problems to be solved in the field of object tracking, such as motion blur, illumination changes, deformation of non-rigid targets, target rotation and occlusion caused by changes in perspective. In recent years, the breakthrough of deep learning has brought the possibility to solve a series of problems in object tracking. Deep learning is a machine learning method based on artificial neural networks. In the past ten years, deep learning technology has been rapidly developed and has been successfully applied in computer vision, speech recognition, natural language processing, social network filtering, machine translation, bioinformatics, drug design and other fields. How to use deep learning methods, especially deep convolutional neural networks to solve the complex problems encountered in the tracking process, has great research value and research space. In this thesis, we utilize the powerful representation ability of convolutional neural networks to improve the visual object tracking algorithm from different aspects including feature representation, appearance model, motion model and model adaptation. Besides, we apply the adversarial information to the visual object tracking task to study the robustness of the visual object tracking algorithm with respect to the adversarial samples. The main work and contributions of this thesis are summarized as follows:

Keyword视觉目标跟踪 深度学习 卷积神经网络 孪生网络 相关滤波
Language中文
Sub direction classification目标检测、跟踪与识别
Document Type学位论文
Identifierhttp://ir.ia.ac.cn/handle/173211/46610
Collection多模态人工智能系统全国重点实验室_视频内容安全
Recommended Citation
GB/T 7714
李振邦. 基于卷积神经网络的视觉目标跟踪算法研究[D]. 北京市海淀区中关村东路95号. 中国科学院自动化研究所,2021.
Files in This Item:
File Name/Size DocType Version Access License
李振邦_博士论文.pdf(3289KB)学位论文 开放获取CC BY-NC-SA
Related Services
Recommend this item
Bookmark
Usage statistics
Export to Endnote
Google Scholar
Similar articles in Google Scholar
[李振邦]'s Articles
Baidu academic
Similar articles in Baidu academic
[李振邦]'s Articles
Bing Scholar
Similar articles in Bing Scholar
[李振邦]'s Articles
Terms of Use
No data!
Social Bookmark/Share
All comments (0)
No comment.
 

Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.