Knowledge Commons of Institute of Automation,CAS
融合自适应评判的随机系统数据驱动策略优化 | |
王鼎; 王将宇; 乔俊飞 | |
发表期刊 | 自动化学报 |
ISSN | 0254-4156 |
2024 | |
卷号 | 50期号:5页码:980-990 |
摘要 | 自适应评判技术已经广泛应用于求解复杂非线性系统的最优控制问题, 但利用其求解离散时间非线性随机系统的无限时域最优控制问题还存在一定局限性. 本文融合自适应评判技术, 建立一种数据驱动的离散随机系统折扣最优调节方法. 首先, 针对宽松假设下的非线性随机系统, 研究带有折扣因子的无限时域最优控制问题. 所提的随机系统 Q-learning 算法能够将初始的容许策略单调不增地优化至最优策略. 基于数据驱动思想, 随机系统 Q-learning 算法在不建立模型的情况下直接利用数据进行策略优化. 其次, 利用执行−评判神经网络方案, 实现了随机系统 Q-learning 算法. 最后, 通过两个基准系统, 验证本文提出的随机系统 Q-learning 算法的有效性. |
关键词 | 自适应评判设计 数据驱动 离散系统 神经网络 Q-learning 随机最优控制 |
DOI | 10.16383/j.aas.c230678 |
引用统计 | |
文献类型 | 期刊论文 |
条目标识符 | http://ir.ia.ac.cn/handle/173211/56712 |
专题 | 学术期刊_自动化学报 |
推荐引用方式 GB/T 7714 | 王鼎,王将宇,乔俊飞. 融合自适应评判的随机系统数据驱动策略优化[J]. 自动化学报,2024,50(5):980-990. |
APA | 王鼎,王将宇,&乔俊飞.(2024).融合自适应评判的随机系统数据驱动策略优化.自动化学报,50(5),980-990. |
MLA | 王鼎,et al."融合自适应评判的随机系统数据驱动策略优化".自动化学报 50.5(2024):980-990. |
条目包含的文件 | ||||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
AAS-CN-2023-0678.pdf(2044KB) | 期刊论文 | 出版稿 | 开放获取 | CC BY-NC-SA | 浏览 下载 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[王鼎]的文章 |
[王将宇]的文章 |
[乔俊飞]的文章 |
百度学术 |
百度学术中相似的文章 |
[王鼎]的文章 |
[王将宇]的文章 |
[乔俊飞]的文章 |
必应学术 |
必应学术中相似的文章 |
[王鼎]的文章 |
[王将宇]的文章 |
[乔俊飞]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论