CASIA OpenIR  > 学术期刊  > 自动化学报
基于终端诱导强化学习的航天器轨道追逃博弈
耿远卓; 袁利; 黄煌; 汤亮
Source Publication自动化学报
ISSN0254-4156
2023
Volume49Issue:5Pages:974-984
Abstract针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实际约束条件,建立锥形安全接近区及追逃博弈过程的数学模型;其次,为了提升航天器面对不确定博弈对抗场景的自主决策能力,以近端策略优化(Proximal policy optimization, PPO)算法框架为基础,采用左右互搏的方式同时训练追踪星和逃逸星,交替提升两星的决策能力;在此基础上,为了在指定时刻完成追逃任务,提出一种终端诱导的奖励函数设计方法,基于CW (Clohessy Wiltshire)方程预测两星在终端时刻的相对误差,并将该预测误差引入奖励函数中,有效引导追踪星在指定时刻进入逃逸星的安全接近区.与现有基于当前误差设计奖励函数的方法相比,所提方法能够有效提高追击成功率.最后,通过与其他学习方法仿真对比,验证提出的训练方法和奖励函数设计方法的有效性和优越性.
Keyword航天器追逃 智能博弈 近端策略优化 奖励函数设计 终端诱导
DOI10.16383/j.aas.c220204
Citation statistics
Document Type期刊论文
Identifierhttp://ir.ia.ac.cn/handle/173211/56148
Collection学术期刊_自动化学报
Recommended Citation
GB/T 7714
耿远卓,袁利,黄煌,等. 基于终端诱导强化学习的航天器轨道追逃博弈[J]. 自动化学报,2023,49(5):974-984.
APA 耿远卓,袁利,黄煌,&汤亮.(2023).基于终端诱导强化学习的航天器轨道追逃博弈.自动化学报,49(5),974-984.
MLA 耿远卓,et al."基于终端诱导强化学习的航天器轨道追逃博弈".自动化学报 49.5(2023):974-984.
Files in This Item: Download All
File Name/Size DocType Version Access License
AAS-CN-2022-0204.pdf(3292KB)期刊论文出版稿开放获取CC BY-NC-SAView Download
Related Services
Recommend this item
Bookmark
Usage statistics
Export to Endnote
Google Scholar
Similar articles in Google Scholar
[耿远卓]'s Articles
[袁利]'s Articles
[黄煌]'s Articles
Baidu academic
Similar articles in Baidu academic
[耿远卓]'s Articles
[袁利]'s Articles
[黄煌]'s Articles
Bing Scholar
Similar articles in Bing Scholar
[耿远卓]'s Articles
[袁利]'s Articles
[黄煌]'s Articles
Terms of Use
No data!
Social Bookmark/Share
File name: AAS-CN-2022-0204.pdf
Format: Adobe PDF
All comments (0)
No comment.
 

Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.