基于视觉表征的深度强化学习方法

CASIA OpenIR > 毕业生 > 博士学位论文

	基于视觉表征的深度强化学习方法
	刘民颂
	2024-05-12
页数	130
学位类型	博士
中文摘要	视觉，作为人类获取外界信息的主要来源，其衍生的视觉智能产业是当前人工智能领域中最重要的产业之一。随着深度强化学习技术的持续进步及视觉智能的不断突破，基于视觉的强化学习技术已逐渐成为处理复杂控制问题的关键工具。视觉信号的高维度、冗余性以及多样性给基于视觉的强化学习的应用带来了一系列挑战，例如视觉表征强化学习普遍面临样本效率低、控制性能差和未知环境泛化难等问题。为了应对这些挑战，本文以典型的基于视觉的离散和连续控制环境为交互场景，重点研究基于视觉的强化学习方法在复杂控制任务中的样本效率和泛化性问题。针对视觉表征强化学习样本效率低和未知环境泛化难的问题，提出一种基于Q无关抽象的软对比学习方法；针对复杂视觉控制任务样本效率低和控制性能差的问题，提出一种基于Transformer的状态预测表征学习方法；针对更困难的复杂视觉控制任务样本效率低和训练难度大的问题，提出一种基于Transformer的状态-动作-奖赏预测表征学习方法。本文的主要内容和创新点如下：基于Q无关抽象的软对比学习方法。针对视觉表征强化学习样本效率低和未知环境泛化难的问题，提出一种基于Q无关抽象的软对比学习方法SCQRL。首先提出一种更粗糙的近似Q无关抽象来定义状态特征，并通过理论分析证明近似Q无关抽象的合理性和有效性。然后构建一种基于Q 值的正负样本选择机制，以帮助对比学习获得具有Q无关特性的学习样本。最后提出一种软对比学习框架，缓解基于Q值的样本选择误差，同时学习具有Q无关特性的状态表征。在经典的视觉表征强化学习泛化平台ProcGen的多个环境实验结果表明，所提方法具有良好的样本效率和泛化性基于Transformer的状态预测表征学习。针对复杂视觉控制任务样本效率低和控制性能差的问题，提出一种基于Transformer的状态预测表征学习方法TSPR。首先提出一种基于 Transformer 架构的预测模型，实现长序列数据的并行处理，提升计算效率的同时避免在灾难性遗忘问题。接着设计一种基于未来状态的单向预测任务，允许预测模型沿一个方向捕捉信息，着重于学习整个序列的表征。然后设计一种基于随机掩码的双向预测任务，促使预测模型细化对每个状态周围上下文信息的理解。最后通过两种预测任务的协同作用，促进智能体学习更有利于策略学习的状态表征。TSPR是一种通用的自监督表征学习框架，可以以辅助任务的形式与任何异策略强化学习算法结合。在连续控制平台DMControl和离散控制平台Atari实验结果表明，所提方法在多个连续和离散控制任务中具有良好的样本效率和收敛性能。基于Transformer的状态-动作-奖赏预测表征学习。针对更困难的复杂视觉控制任务样本效率低和训练难度大的问题，提出一种基于Transformer的状态-动作-奖赏预测表征学习方法TSAR。首先提出一种基于 Transformer 的融合状态-动作-奖赏信息的序列预测任务，通过最大化掩码序列的预测状态特征与实际目标状态特征间的互信息，同步促进状态与动作的表征学习。接着提出一种逆动力学模型和一种奖赏预测模型，约束并指导智能体学会对策略更有帮助的状态和动作表征。最后TSAR以辅助任务的形式共享特征，将学到的状态表征和动作表征显式地参与策略的优化过程中，显著提高策略性能和学习效率。在连续控制平台DMControl的9个具有挑战性的困难环境实验结果表明，所提方法具有良好的样本效率和收敛性能。
英文摘要	Since vision is the main way that humans acquire information from the outside world, it has led to the emergence of the visual intelligence industry, which is currently one of the most significant subsectors of artificial intelligence. As deep reinforcement learning technology continues to progress and vision intelligence continues to grow, vision-based reinforcement learning is becoming an increasingly important technique for solving complicated control problems. The high dimensionality, redundancy, and diversity of visual signals pose a series of challenges for the application of vision-based reinforcement learning, such as the low sample efficiency problem commonly encountered in visual reinforcement learning, and the generalization problem of policies when facing unknown environments. In order to address these difficulties, this paper employs common vision-based discrete and continuous control environments as interaction scenarios to explore the generalizability and sample efficiency problems of vision-based reinforcement learning techniques in complex control tasks. To address the issues of low sample efficiency and difficulty in generalizing to unknown environments in visual reinforcement learning, a soft contrastive learning method based on Q-irrelevance abstraction is proposed. For the problem of low sample efficiency and poor control performance in complex visual control tasks, a state prediction representation learning method based on Transformer is proposed. Furthermore, for more difficult complex visual control tasks with low sample efficiency and high training difficulty, a state-action-reward prediction representation learning method based on Transformer is presented. The main content and innovations of this paper are as follows: Soft Contrastive Learning based on Q-Irrelevance Abstraction. To address the issues of low sample efficiency and difficulty in generalizing to unknown environments in visual reinforcement learning, a soft contrastive learning method based on Q-irrelevance abstraction for r
关键词	深度强化学习，视觉表征学习，自监督学习，状态抽象，Transformer神经网络
收录类别	SCIE ; SSCI ; EI ; SSCI
语种	中文
七大方向——子方向分类	智能控制
文献类型	学位论文
条目标识符	http://ir.ia.ac.cn/handle/173211/57517
专题	毕业生_博士学位论文
推荐引用方式 GB/T 7714	刘民颂. 基于视觉表征的深度强化学习方法[D],2024.

条目包含的文件
文件名称/大小	文献类型	版本类型	开放类型	使用许可
基于视觉表征的深度强化学习方法-刘民颂-（10778KB）	学位论文		限制开放	CC BY-NC-SA