中国科学院自动化研究所机构知识库

Knowledge Commons of Institute of Automation，CAS

图片搜索

粘贴图片网址

CASIA OpenIR > 学术期刊 > 自动化学报

	基于距离信息的追逃策略:信念状态连续随机博弈
	陈灵敏; 冯宇; 李永强
发表期刊	自动化学报
ISSN	0254-4156
	2024
卷号	50 期号:4 页码:828-840
摘要	追逃问题的研究在对抗、追踪以及搜查等领域极具现实意义. 借助连续随机博弈与马尔科夫决策过程(Markov decision process, MDP), 研究使用测量距离求解多对一追逃问题的最优策略. 在此追逃问题中, 追捕群体仅领导者可测量与逃逸者间的相对距离, 而逃逸者具有全局视野. 追逃策略求解被分为追博弈与马尔科夫决策两个过程. 在求解追捕策略时, 通过分割环境引入信念区域状态以估计逃逸者位置, 同时使用测量距离对信念区域状态进行修正, 构建起基于信念区域状态的连续随机追博弈, 并借助不动点定理证明了博弈平稳纳什均衡策略的存在性. 在求解逃逸策略时, 逃逸者根据全局信息建立混合状态下的马尔科夫决策过程及相应的最优贝尔曼方程. 同时给出了基于强化学习的平稳追逃策略求解算法, 并通过案例验证了该算法的有效性.
关键词	追逃问题信念区域状态连续随机博弈马尔科夫决策过程强化学习
DOI	10.16383/j.aas.c230018
引用统计
文献类型	期刊论文
条目标识符	http://ir.ia.ac.cn/handle/173211/56123
专题	学术期刊_自动化学报
推荐引用方式 GB/T 7714	陈灵敏,冯宇,李永强. 基于距离信息的追逃策略:信念状态连续随机博弈[J]. 自动化学报,2024,50(4):828-840.
APA	陈灵敏,冯宇,&李永强.(2024).基于距离信息的追逃策略:信念状态连续随机博弈.自动化学报,50(4),828-840.
MLA	陈灵敏,et al."基于距离信息的追逃策略:信念状态连续随机博弈".自动化学报 50.4(2024):828-840.

条目包含的文件		下载所有文件
文件名称/大小	文献类型	版本类型	开放类型	使用许可
AAS-CN-2023-0018.pdf（3110KB）	期刊论文	出版稿	开放获取	CC BY-NC-SA	浏览下载

个性服务

保存到收藏夹

查看访问统计

导出为Endnote文件

谷歌学术

谷歌学术中相似的文章

[陈灵敏]的文章

[冯宇]的文章

[李永强]的文章

百度学术

百度学术中相似的文章

[陈灵敏]的文章

[冯宇]的文章

[李永强]的文章

必应学术

必应学术中相似的文章

[陈灵敏]的文章

[冯宇]的文章

[李永强]的文章

相关权益政策

收藏/分享

文件名：	AAS-CN-2023-0018.pdf
格式：	Adobe PDF

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。

条目量25852
全文量13690
访问量5882860
下载量927232