CASIA OpenIR  > 学术期刊  > 自动化学报
安全强化学习综述
王雪松; 王荣荣; 程玉虎
Source Publication自动化学报
ISSN0254-4156
2023
Volume49Issue:9Pages:1813-1835
Abstract强化学习(Reinforcement learning, RL)在围棋、视频游戏、导航、推荐系统等领域均取得了巨大成功.然而,许多强化学习算法仍然无法直接移植到真实物理环境中.这是因为在模拟场景下智能体能以不断试错的方式与环境进行交互,从而学习最优策略.但考虑到安全因素,很多现实世界的应用则要求限制智能体的随机探索行为.因此,安全问题成为强化学习从模拟到现实的一个重要挑战.近年来,许多研究致力于开发安全强化学习(Safe reinforcement learning, SRL)算法,在确保系统性能的同时满足安全约束.本文对现有的安全强化学习算法进行全面综述,将其归为三类:修改学习过程、修改学习目标、离线强化学习,并介绍了5大基准测试平台:Safety Gym、safe-control-gym、SafeRL-Kit、D4RL、NeoRL.最后总结了安全强化学习在自动驾驶、机器人控制、工业过程控制、电力系统优化和医疗健康领域中的应用,并给出结论与展望.
Keyword安全强化学习 约束马尔科夫决策过程 学习过程 学习目标 离线强化学习
DOI10.16383/j.aas.c220631
Citation statistics
Document Type期刊论文
Identifierhttp://ir.ia.ac.cn/handle/173211/56062
Collection学术期刊_自动化学报
Recommended Citation
GB/T 7714
王雪松,王荣荣,程玉虎. 安全强化学习综述[J]. 自动化学报,2023,49(9):1813-1835.
APA 王雪松,王荣荣,&程玉虎.(2023).安全强化学习综述.自动化学报,49(9),1813-1835.
MLA 王雪松,et al."安全强化学习综述".自动化学报 49.9(2023):1813-1835.
Files in This Item:
File Name/Size DocType Version Access License
AAS-CN-2022-0631.pdf(1356KB)期刊论文出版稿开放获取CC BY-NC-SAView
Related Services
Recommend this item
Bookmark
Usage statistics
Export to Endnote
Google Scholar
Similar articles in Google Scholar
[王雪松]'s Articles
[王荣荣]'s Articles
[程玉虎]'s Articles
Baidu academic
Similar articles in Baidu academic
[王雪松]'s Articles
[王荣荣]'s Articles
[程玉虎]'s Articles
Bing Scholar
Similar articles in Bing Scholar
[王雪松]'s Articles
[王荣荣]'s Articles
[程玉虎]'s Articles
Terms of Use
No data!
Social Bookmark/Share
File name: AAS-CN-2022-0631.pdf
Format: Adobe PDF
All comments (0)
No comment.
 

Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.