CASIA OpenIR  > 学术期刊  > 自动化学报
基于优先采样模型的离线强化学习
顾扬; 程玉虎; 王雪松
Source Publication自动化学报
ISSN0254-4156
2024
Volume50Issue:1Pages:143-153
Abstract离线强化学习通过减小分布偏移实现了习得策略向行为策略的逼近,但离线经验缓存的数据分布往往会直接影响习得策略的质量.通过优化采样模型来改善强化学习智能体的训练效果,提出两种离线优先采样模型:基于时序差分误差的采样模型和基于鞅的采样模型.基于时序差分误差的采样模型可以使智能体更多地学习值估计不准确的经验数据,通过估计更准确的值函数来应对可能出现的分布外状态.基于鞅的采样模型可以使智能体更多地学习对策略优化有利的正样本,减少负样本对值函数迭代的影响.进一步,将所提离线优先采样模型分别与批约束深度Q学习(Batch-constrained deep Q-learning, BCQ)相结合,提出基于时序差分误差的优先BCQ和基于鞅的优先BCQ. D4RL和Torcs数据集上的实验结果表明:所提离线优先采样模型可以有针对性地选择有利于值函数估计或策略优化的经验数据,获得更高的回报.
Keyword离线强化学习 优先采样模型 时序差分误差 批约束深度Q学习
DOI10.16383/j.aas.c230019
Citation statistics
Document Type期刊论文
Identifierhttp://ir.ia.ac.cn/handle/173211/55760
Collection学术期刊_自动化学报
Recommended Citation
GB/T 7714
顾扬,程玉虎,王雪松. 基于优先采样模型的离线强化学习[J]. 自动化学报,2024,50(1):143-153.
APA 顾扬,程玉虎,&王雪松.(2024).基于优先采样模型的离线强化学习.自动化学报,50(1),143-153.
MLA 顾扬,et al."基于优先采样模型的离线强化学习".自动化学报 50.1(2024):143-153.
Files in This Item: Download All
File Name/Size DocType Version Access License
AAS-CN-2023-0019.pdf(2677KB)期刊论文出版稿开放获取CC BY-NC-SAView Download
Related Services
Recommend this item
Bookmark
Usage statistics
Export to Endnote
Google Scholar
Similar articles in Google Scholar
[顾扬]'s Articles
[程玉虎]'s Articles
[王雪松]'s Articles
Baidu academic
Similar articles in Baidu academic
[顾扬]'s Articles
[程玉虎]'s Articles
[王雪松]'s Articles
Bing Scholar
Similar articles in Bing Scholar
[顾扬]'s Articles
[程玉虎]'s Articles
[王雪松]'s Articles
Terms of Use
No data!
Social Bookmark/Share
File name: AAS-CN-2023-0019.pdf
Format: Adobe PDF
All comments (0)
No comment.
 

Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.