Knowledge Commons of Institute of Automation,CAS
基于距离信息的追逃策略:信念状态连续随机博弈 | |
陈灵敏; 冯宇; 李永强 | |
发表期刊 | 自动化学报 |
ISSN | 0254-4156 |
2024 | |
卷号 | 50期号:4页码:828-840 |
摘要 | 追逃问题的研究在对抗、追踪以及搜查等领域极具现实意义. 借助连续随机博弈与马尔科夫决策过程(Markov decision process, MDP), 研究使用测量距离求解多对一追逃问题的最优策略. 在此追逃问题中, 追捕群体仅领导者可测量与逃逸者间的相对距离, 而逃逸者具有全局视野. 追逃策略求解被分为追博弈与马尔科夫决策两个过程. 在求解追捕策略时, 通过分割环境引入信念区域状态以估计逃逸者位置, 同时使用测量距离对信念区域状态进行修正, 构建起基于信念区域状态的连续随机追博弈, 并借助不动点定理证明了博弈平稳纳什均衡策略的存在性. 在求解逃逸策略时, 逃逸者根据全局信息建立混合状态下的马尔科夫决策过程及相应的最优贝尔曼方程. 同时给出了基于强化学习的平稳追逃策略求解算法, 并通过案例验证了该算法的有效性. |
关键词 | 追逃问题 信念区域状态 连续随机博弈 马尔科夫决策过程 强化学习 |
DOI | 10.16383/j.aas.c230018 |
引用统计 | |
文献类型 | 期刊论文 |
条目标识符 | http://ir.ia.ac.cn/handle/173211/56123 |
专题 | 学术期刊_自动化学报 |
推荐引用方式 GB/T 7714 | 陈灵敏,冯宇,李永强. 基于距离信息的追逃策略:信念状态连续随机博弈[J]. 自动化学报,2024,50(4):828-840. |
APA | 陈灵敏,冯宇,&李永强.(2024).基于距离信息的追逃策略:信念状态连续随机博弈.自动化学报,50(4),828-840. |
MLA | 陈灵敏,et al."基于距离信息的追逃策略:信念状态连续随机博弈".自动化学报 50.4(2024):828-840. |
条目包含的文件 | 下载所有文件 | |||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
AAS-CN-2023-0018.pdf(3110KB) | 期刊论文 | 出版稿 | 开放获取 | CC BY-NC-SA | 浏览 下载 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[陈灵敏]的文章 |
[冯宇]的文章 |
[李永强]的文章 |
百度学术 |
百度学术中相似的文章 |
[陈灵敏]的文章 |
[冯宇]的文章 |
[李永强]的文章 |
必应学术 |
必应学术中相似的文章 |
[陈灵敏]的文章 |
[冯宇]的文章 |
[李永强]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论