Knowledge Commons of Institute of Automation,CAS
基于优先采样模型的离线强化学习 | |
顾扬; 程玉虎; 王雪松 | |
发表期刊 | 自动化学报
![]() |
ISSN | 0254-4156 |
2024 | |
卷号 | 50期号:1页码:143-153 |
摘要 | 离线强化学习通过减小分布偏移实现了习得策略向行为策略的逼近,但离线经验缓存的数据分布往往会直接影响习得策略的质量.通过优化采样模型来改善强化学习智能体的训练效果,提出两种离线优先采样模型:基于时序差分误差的采样模型和基于鞅的采样模型.基于时序差分误差的采样模型可以使智能体更多地学习值估计不准确的经验数据,通过估计更准确的值函数来应对可能出现的分布外状态.基于鞅的采样模型可以使智能体更多地学习对策略优化有利的正样本,减少负样本对值函数迭代的影响.进一步,将所提离线优先采样模型分别与批约束深度Q学习(Batch-constrained deep Q-learning, BCQ)相结合,提出基于时序差分误差的优先BCQ和基于鞅的优先BCQ. D4RL和Torcs数据集上的实验结果表明:所提离线优先采样模型可以有针对性地选择有利于值函数估计或策略优化的经验数据,获得更高的回报. |
关键词 | 离线强化学习 优先采样模型 时序差分误差 鞅 批约束深度Q学习 |
DOI | 10.16383/j.aas.c230019 |
引用统计 | |
文献类型 | 期刊论文 |
条目标识符 | http://ir.ia.ac.cn/handle/173211/55760 |
专题 | 学术期刊_自动化学报 |
推荐引用方式 GB/T 7714 | 顾扬,程玉虎,王雪松. 基于优先采样模型的离线强化学习[J]. 自动化学报,2024,50(1):143-153. |
APA | 顾扬,程玉虎,&王雪松.(2024).基于优先采样模型的离线强化学习.自动化学报,50(1),143-153. |
MLA | 顾扬,et al."基于优先采样模型的离线强化学习".自动化学报 50.1(2024):143-153. |
条目包含的文件 | 下载所有文件 | |||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
AAS-CN-2023-0019.pdf(2677KB) | 期刊论文 | 出版稿 | 开放获取 | CC BY-NC-SA | 浏览 下载 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[顾扬]的文章 |
[程玉虎]的文章 |
[王雪松]的文章 |
百度学术 |
百度学术中相似的文章 |
[顾扬]的文章 |
[程玉虎]的文章 |
[王雪松]的文章 |
必应学术 |
必应学术中相似的文章 |
[顾扬]的文章 |
[程玉虎]的文章 |
[王雪松]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论