CASIA OpenIR
(本次检索基于用户作品认领结果)

浏览/检索结果: 共1条,第1-1条 帮助

限定条件                    
已选(0)清除 条数/页:   排序方式:
POPO: Pessimistic Offline Policy Optimization 会议论文
, Singapore, Singapore, 23-27 May 2022
作者:  He Q(何强);  Hou XW(侯新文);  Liu Y(刘禹)
Adobe PDF(1200Kb)  |  收藏  |  浏览/下载:201/40  |  提交时间:2022/06/27
reinforcement learning  offline optimization  out-of-distribution