Knowledge Commons of Institute of Automation,CAS
基于强化学习与安全约束的自动驾驶决策方法 | |
王宇霄1,2![]() ![]() | |
发表期刊 | 交通运输研究
![]() |
ISSN | 2095-9931 |
2023-02 | |
卷号 | 9期号:1页码:31-39 |
文章类型 | 研究型论文 |
摘要 | 在自动驾驶决策场景下,为解决强化学习算法安全性差、学习效率低的问题,提出一种在算法的训练阶段添加基于价值的安全约束和虚拟奖励的方法。首先,利用状态、动作价值函数和安全判断规则,对智能体执行的动作进行基于价值的安全约束,选择价值高且安全的动作。然后,向回放池添加包含虚拟奖励的预测轨迹数据,以补充由于约束而未能获取的试错动作信息和相应的状态、奖励信息。最后,为进行加减速和换道决策实验,基于修改后的高速公路仿真环境highway-env搭建了3车道高速公路场景,并以深度Q网络(Deep Q Network, DQN)算法为基础,分别训练和测试了无安全约束的算法、拥有基于规则的安全约束的算法和拥有基于价值的安全约束的算法。结果表明,考虑加速、减速、保持车速和车道、向左换道、向右换道共5种动作时,基于价值的安全约束算法的成功率比无安全约束的算法高3倍以上,平均回报提升28%;仅考虑向左换道、向右换道、保持车道这3种换道动作时,基于价值的安全约束算法的成功率比基于规则的安全约束算法高0.11,平均回报提升6%;都添加基于价值的安全约束时,考虑5种动作的算法相较于考虑3种动作的算法成功率低0.06但平均行驶速度快0.26m/s,也即前者实现了对安全和速度的平衡。由此可知,基于价值的安全约束算法比基于规则的算法更能提升强化学习算法的安全性和训练效率,而包含更多决策动作的动作空间设置可实现更高的驾驶技巧,避免算法过于保守。 |
关键词 | 深度强化学习 自动驾驶 决策 安全约束 |
学科门类 | 工学 ; 工学::计算机科学与技术(可授工学、理学学位) |
DOI | 10.16503/j.cnki.2095-9931.2023.01.004 |
URL | 查看原文 |
收录类别 | 其他 |
语种 | 中文 |
七大方向——子方向分类 | 人工智能+交通 |
国重实验室规划方向分类 | 实体人工智能系统决策-控制 |
是否有论文关联数据集需要存交 | 否 |
中文导读 | / |
视频解析 | / |
引用统计 | |
文献类型 | 期刊论文 |
条目标识符 | http://ir.ia.ac.cn/handle/173211/57360 |
专题 | 多模态人工智能系统全国重点实验室_平行智能技术与系统团队 |
通讯作者 | 朱凤华 |
作者单位 | 1.中国科学院自动化研究所多模态人工智能全国重点实验室 2.中国科学院大学人工智能学院 3.内蒙古电投能源股份有限公司北露天煤矿 |
第一作者单位 | 中国科学院自动化研究所 |
通讯作者单位 | 中国科学院自动化研究所 |
推荐引用方式 GB/T 7714 | 王宇霄,刘敬玉,李忠飞,等. 基于强化学习与安全约束的自动驾驶决策方法[J]. 交通运输研究,2023,9(1):31-39. |
APA | 王宇霄,刘敬玉,李忠飞,&朱凤华.(2023).基于强化学习与安全约束的自动驾驶决策方法.交通运输研究,9(1),31-39. |
MLA | 王宇霄,et al."基于强化学习与安全约束的自动驾驶决策方法".交通运输研究 9.1(2023):31-39. |
条目包含的文件 | 下载所有文件 | |||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
基于强化学习与安全约束的自动驾驶决策方法(2613KB) | 期刊论文 | 作者接受稿 | 开放获取 | CC BY-NC-SA | 浏览 下载 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[王宇霄]的文章 |
[刘敬玉]的文章 |
[李忠飞]的文章 |
百度学术 |
百度学术中相似的文章 |
[王宇霄]的文章 |
[刘敬玉]的文章 |
[李忠飞]的文章 |
必应学术 |
必应学术中相似的文章 |
[王宇霄]的文章 |
[刘敬玉]的文章 |
[李忠飞]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论