基于视觉表征的深度强化学习方法 | |
刘民颂![]() | |
2024-05-12 | |
页数 | 130 |
学位类型 | 博士 |
中文摘要 | 视觉,作为人类获取外界信息的主要来源,其衍生的视觉智能产业是当前人工智能领域中最重要的产业之一。随着深度强化学习技术的持续进步及视觉智能的不断突破,基于视觉的强化学习技术已逐渐成为处理复杂控制问题的关键工具。视觉信号的高维度、冗余性以及多样性给基于视觉的强化学习的应用带来了一系列挑战,例如视觉表征强化学习普遍面临样本效率低、控制性能差和未知环境泛化难等问题。为了应对这些挑战,本文以典型的基于视觉的离散和连续控制环境为交互场景,重点研究基于视觉的强化学习方法在复杂控制任务中的样本效率和泛化性问题。针对视觉表征强化学习样本效率低和未知环境泛化难的问题,提出一种基于Q无关抽象的软对比学习方法;针对复杂视觉控制任务样本效率低和控制性能差的问题,提出一种基于Transformer的状态预测表征学习方法;针对更困难的复杂视觉控制任务样本效率低和训练难度大的问题,提出一种基于Transformer的状态-动作-奖赏预测表征学习方法。本文的主要内容和创新点如下: 基于Q无关抽象的软对比学习方法。针对视觉表征强化学习样本效率低和未知环境泛化难的问题,提出一种基于Q无关抽象的软对比学习方法SCQRL。首先提出一种更粗糙的近似Q无关抽象来定义状态特征,并通过理论分析证明近似Q无关抽象的合理性和有效性。然后构建一种基于Q 值的正负样本选择机制,以帮助对比学习获得具有Q无关特性的学习样本。最后提出一种软对比学习框架,缓解基于Q值的样本选择误差,同时学习具有Q无关特性的状态表征。在经典的视觉表征强化学习泛化平台ProcGen的多个环境实验结果表明,所提方法具有良好的样本效率和泛化性 |
英文摘要 | Since vision is the main way that humans acquire information from the outside world, it has led to the emergence of the visual intelligence industry, which is currently one of the most significant subsectors of artificial intelligence. As deep reinforcement learning technology continues to progress and vision intelligence continues to grow, vision-based reinforcement learning is becoming an increasingly important technique for solving complicated control problems. The high dimensionality, redundancy, and diversity of visual signals pose a series of challenges for the application of vision-based reinforcement learning, such as the low sample efficiency problem commonly encountered in visual reinforcement learning, and the generalization problem of policies when facing unknown environments. In order to address these difficulties, this paper employs common vision-based discrete and continuous control environments as interaction scenarios to explore the generalizability and sample efficiency problems of vision-based reinforcement learning techniques in complex control tasks. To address the issues of low sample efficiency and difficulty in generalizing to unknown environments in visual reinforcement learning, a soft contrastive learning method based on Q-irrelevance abstraction is proposed. For the problem of low sample efficiency and poor control performance in complex visual control tasks, a state prediction representation learning method based on Transformer is proposed. Furthermore, for more difficult complex visual control tasks with low sample efficiency and high training difficulty, a state-action-reward prediction representation learning method based on Transformer is presented. The main content and innovations of this paper are as follows: |
关键词 | 深度强化学习,视觉表征学习,自监督学习,状态抽象,Transformer神经网络 |
收录类别 | SCIE ; SSCI ; EI ; SSCI |
语种 | 中文 |
七大方向——子方向分类 | 智能控制 |
文献类型 | 学位论文 |
条目标识符 | http://ir.ia.ac.cn/handle/173211/57517 |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 刘民颂. 基于视觉表征的深度强化学习方法[D],2024. |
条目包含的文件 | ||||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
基于视觉表征的深度强化学习方法-刘民颂-(10778KB) | 学位论文 | 限制开放 | CC BY-NC-SA |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[刘民颂]的文章 |
百度学术 |
百度学术中相似的文章 |
[刘民颂]的文章 |
必应学术 |
必应学术中相似的文章 |
[刘民颂]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论