深度强化学习进展: 从 AlphaGo 到 AlphaGo Zero
唐振韬1,2; 邵 坤1,2; 赵冬斌1,2; 朱圆恒1,2
发表期刊控 制 理 论 与 应 用
2017
卷号34期号:12页码:1529-1546
摘要

2016年初, AlphaGo战胜李世石成为人工智能的里程碑事件. 其核心技术深度强化学习受到人们的广泛关 注和研究, 取得了丰硕的理论和应用成果. 并进一步研发出算法形式更为简洁的AlphaGo Zero, 其采用完全不基于 人类经验的自学习算法, 完胜AlphaGo, 再一次刷新人们对深度强化学习的认知. 深度强化学习结合了深度学习和 强化学习的优势, 可以在复杂高维的状态动作空间中进行端到端的感知决策. 本文主要介绍了从AlphaGo到AlphaGo Zero的深度强化学习的研究进展. 首先回顾对深度强化学习的成功作出突出贡献的主要算法, 包括深度Q网络 算法、A3C算法、策略梯度算法及其他算法的相应扩展. 然后给出AlphaGo Zero的详细介绍和讨论, 分析其对人工智 能的巨大推动作用. 并介绍了深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域的应用进 展, 以及相关资源进展. 最后探讨了深度强化学习的发展展望, 以及对其他潜在领域的人工智能发展的启发意义.

关键词深度强化学习 AlphaGo Zero 深度学习 强化学习 人工智能
语种中文
文献类型期刊论文
条目标识符http://ir.ia.ac.cn/handle/173211/45043
专题多模态人工智能系统全国重点实验室_深度强化学习
通讯作者赵冬斌
作者单位1.中国科学院 自动化研究所 复杂系统管理与控制国家重点实验室, 北京 100190
2.中国科学院大学, 北京 100190
推荐引用方式
GB/T 7714
唐振韬,邵 坤,赵冬斌,等. 深度强化学习进展: 从 AlphaGo 到 AlphaGo Zero[J]. 控 制 理 论 与 应 用,2017,34(12):1529-1546.
APA 唐振韬,邵 坤,赵冬斌,&朱圆恒.(2017).深度强化学习进展: 从 AlphaGo 到 AlphaGo Zero.控 制 理 论 与 应 用,34(12),1529-1546.
MLA 唐振韬,et al."深度强化学习进展: 从 AlphaGo 到 AlphaGo Zero".控 制 理 论 与 应 用 34.12(2017):1529-1546.
条目包含的文件 下载所有文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
深度强化学习进展_从AlphaGo到Al(8232KB)期刊论文作者接受稿开放获取CC BY-NC-SA浏览 下载
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[唐振韬]的文章
[邵 坤]的文章
[赵冬斌]的文章
百度学术
百度学术中相似的文章
[唐振韬]的文章
[邵 坤]的文章
[赵冬斌]的文章
必应学术
必应学术中相似的文章
[唐振韬]的文章
[邵 坤]的文章
[赵冬斌]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 深度强化学习进展_从AlphaGo到AlphaGo_Zero_唐振韬.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。