中国科学院自动化研究所机构知识库

Knowledge Commons of Institute of Automation，CAS

图片搜索

粘贴图片网址

CASIA OpenIR > 学术期刊 > 自动化学报

	基于优先采样模型的离线强化学习
	顾扬; 程玉虎; 王雪松
发表期刊	自动化学报
ISSN	0254-4156
	2024
卷号	50 期号:1 页码:143-153
摘要	离线强化学习通过减小分布偏移实现了习得策略向行为策略的逼近,但离线经验缓存的数据分布往往会直接影响习得策略的质量.通过优化采样模型来改善强化学习智能体的训练效果,提出两种离线优先采样模型:基于时序差分误差的采样模型和基于鞅的采样模型.基于时序差分误差的采样模型可以使智能体更多地学习值估计不准确的经验数据,通过估计更准确的值函数来应对可能出现的分布外状态.基于鞅的采样模型可以使智能体更多地学习对策略优化有利的正样本,减少负样本对值函数迭代的影响.进一步,将所提离线优先采样模型分别与批约束深度Q学习(Batch-constrained deep Q-learning, BCQ)相结合,提出基于时序差分误差的优先BCQ和基于鞅的优先BCQ. D4RL和Torcs数据集上的实验结果表明:所提离线优先采样模型可以有针对性地选择有利于值函数估计或策略优化的经验数据,获得更高的回报.
关键词	离线强化学习优先采样模型时序差分误差鞅批约束深度Q学习
DOI	10.16383/j.aas.c230019
引用统计
文献类型	期刊论文
条目标识符	http://ir.ia.ac.cn/handle/173211/55760
专题	学术期刊_自动化学报
推荐引用方式 GB/T 7714	顾扬,程玉虎,王雪松. 基于优先采样模型的离线强化学习[J]. 自动化学报,2024,50(1):143-153.
APA	顾扬,程玉虎,&王雪松.(2024).基于优先采样模型的离线强化学习.自动化学报,50(1),143-153.
MLA	顾扬,et al."基于优先采样模型的离线强化学习".自动化学报 50.1(2024):143-153.

条目包含的文件
文件名称/大小	文献类型	版本类型	开放类型	使用许可
AAS-CN-2023-0019.pdf（2677KB）	期刊论文	出版稿	开放获取	CC BY-NC-SA	浏览

个性服务

保存到收藏夹

查看访问统计

导出为Endnote文件

谷歌学术

谷歌学术中相似的文章

[顾扬]的文章

[程玉虎]的文章

[王雪松]的文章

百度学术

百度学术中相似的文章

[顾扬]的文章

[程玉虎]的文章

[王雪松]的文章

必应学术

必应学术中相似的文章

[顾扬]的文章

[程玉虎]的文章

[王雪松]的文章

相关权益政策

收藏/分享

文件名：	AAS-CN-2023-0019.pdf
格式：	Adobe PDF

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。

条目量25867
全文量13705
访问量5888952
下载量927805