概率近似正确的强化学习算法解决连续状态空间控制问题
朱圆恒; 赵冬斌
2016
发表期刊控制理论与应用
卷号33期号:12页码:1603-1613
其他摘要One important factor of reinforcement learning (RL) algorithms is the online learning time. Conventional algorithms such Q-learning and SARSA can not give the quantitative analysis on the upper bound of the online learning time. In this paper, we employ the idea of Probably Approximately Correct (PAC) and design the data-driven online RL algorithm for continuous-time deterministic systems. This class of algorithms efficiently record online observations and keep in mind the exploration required by online RL. They are capable to learn the near-optimal policy within a finite time length. Two algorithms are developed, separately based on state discretization and kd-tree technique, which are used to store data and compute online policies. Both algorithms are applied to the two-link manipulator to observe the performance.
关键词强化学习 概率近似正确 Kd树 双连杆机械臂
文献类型期刊论文
条目标识符http://ir.ia.ac.cn/handle/173211/15285
专题复杂系统管理与控制国家重点实验室_深度强化学习
作者单位中国科学院自动化研究所
推荐引用方式
GB/T 7714
朱圆恒,赵冬斌. 概率近似正确的强化学习算法解决连续状态空间控制问题[J]. 控制理论与应用,2016,33(12):1603-1613.
APA 朱圆恒,&赵冬斌.(2016).概率近似正确的强化学习算法解决连续状态空间控制问题.控制理论与应用,33(12),1603-1613.
MLA 朱圆恒,et al."概率近似正确的强化学习算法解决连续状态空间控制问题".控制理论与应用 33.12(2016):1603-1613.
条目包含的文件 下载所有文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
概率近似正确的强化学习算法解决连续状态空(1544KB)期刊论文作者接受稿开放获取CC BY-NC-SA浏览 下载
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[朱圆恒]的文章
[赵冬斌]的文章
百度学术
百度学术中相似的文章
[朱圆恒]的文章
[赵冬斌]的文章
必应学术
必应学术中相似的文章
[朱圆恒]的文章
[赵冬斌]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 概率近似正确的强化学习算法解决连续状态空间控制问题.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。