中国科学院自动化研究所机构知识库

Knowledge Commons of Institute of Automation，CAS

图片搜索

粘贴图片网址

CASIA OpenIR > 学术期刊 > 自动化学报

	融合自适应评判的随机系统数据驱动策略优化
	王鼎; 王将宇; 乔俊飞
发表期刊	自动化学报
ISSN	0254-4156
	2024
卷号	50 期号:5 页码:980-990
摘要	自适应评判技术已经广泛应用于求解复杂非线性系统的最优控制问题, 但利用其求解离散时间非线性随机系统的无限时域最优控制问题还存在一定局限性. 本文融合自适应评判技术, 建立一种数据驱动的离散随机系统折扣最优调节方法. 首先, 针对宽松假设下的非线性随机系统, 研究带有折扣因子的无限时域最优控制问题. 所提的随机系统 Q-learning 算法能够将初始的容许策略单调不增地优化至最优策略. 基于数据驱动思想, 随机系统 Q-learning 算法在不建立模型的情况下直接利用数据进行策略优化. 其次, 利用执行−评判神经网络方案, 实现了随机系统 Q-learning 算法. 最后, 通过两个基准系统, 验证本文提出的随机系统 Q-learning 算法的有效性.
关键词	自适应评判设计数据驱动离散系统神经网络 Q-learning 随机最优控制
DOI	10.16383/j.aas.c230678
引用统计
文献类型	期刊论文
条目标识符	http://ir.ia.ac.cn/handle/173211/56712
专题	学术期刊_自动化学报
推荐引用方式 GB/T 7714	王鼎,王将宇,乔俊飞. 融合自适应评判的随机系统数据驱动策略优化[J]. 自动化学报,2024,50(5):980-990.
APA	王鼎,王将宇,&乔俊飞.(2024).融合自适应评判的随机系统数据驱动策略优化.自动化学报,50(5),980-990.
MLA	王鼎,et al."融合自适应评判的随机系统数据驱动策略优化".自动化学报 50.5(2024):980-990.

条目包含的文件
文件名称/大小	文献类型	版本类型	开放类型	使用许可
AAS-CN-2023-0678.pdf（2044KB）	期刊论文	出版稿	开放获取	CC BY-NC-SA	浏览下载

个性服务

保存到收藏夹

查看访问统计

导出为Endnote文件

谷歌学术

谷歌学术中相似的文章

[王鼎]的文章

[王将宇]的文章

[乔俊飞]的文章

百度学术

百度学术中相似的文章

[王鼎]的文章

[王将宇]的文章

[乔俊飞]的文章

必应学术

必应学术中相似的文章

[王鼎]的文章

[王将宇]的文章

[乔俊飞]的文章

相关权益政策

收藏/分享

文件名：	AAS-CN-2023-0678.pdf
格式：	Adobe PDF

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。

条目量25867
全文量13705
访问量5901410
下载量930698