中国科学院自动化研究所机构知识库(CASIA OpenIR): 检索

CASIA OpenIR

（本次检索基于用户作品认领结果）

浏览/检索结果: 共2条，第1-2条

帮助

已选(0)清除条数/页：排序方式：
	POPO: Pessimistic Offline Policy Optimization 会议论文 , Singapore, Singapore, 23-27 May 2022 作者: He Q(何强); Hou XW(侯新文); Liu Y(刘禹) Adobe PDF(1200Kb) \| 收藏 \| 浏览/下载：204/41 \| 提交时间：2022/06/27 reinforcement learning offline optimization out-of-distribution
	面向连续控制任务的深度强化学习值函数估计研究学位论文工学硕士, 中国科学院自动化研究所: 中国科学院大学, 2022 作者: 何强 Adobe PDF(4687Kb) \| 收藏 \| 浏览/下载：221/5 \| 提交时间：2022/06/17 深度强化学习值函数估计值函数表示集成强化学习

中国科学院自动化研究所机构知识库