CASIA OpenIR

浏览/检索结果: 共13条,第1-10条 帮助

已选(0)清除 条数/页:   排序方式:
采用分类经验回放的深度确定性策略梯度方法 期刊论文
自动化学报, 2022, 卷号: 48, 期号: 7, 页码: 1816-1823
作者:  时圣苗;  刘全
Adobe PDF(19798Kb)  |  收藏  |  浏览/下载:0/0  |  提交时间:2024/05/20
连续控制任务  深度确定性策略梯度  经验回放  分类经验回放  
多智能体博弈、学习与控制 期刊论文
自动化学报, 2023, 卷号: 49, 期号: 3, 页码: 580-613
作者:  王龙;  黄锋
Adobe PDF(2088Kb)  |  收藏  |  浏览/下载:8/4  |  提交时间:2024/05/09
博弈论  多智能体学习  控制论  强化学习  人工智能  
基于优先采样模型的离线强化学习 期刊论文
自动化学报, 2024, 卷号: 50, 期号: 1, 页码: 143-153
作者:  顾扬;  程玉虎;  王雪松
Adobe PDF(2677Kb)  |  收藏  |  浏览/下载:61/16  |  提交时间:2024/04/12
离线强化学习  优先采样模型  时序差分误差    批约束深度Q学习  
全局信息指导下的分布式多智能体协作算法研究 学位论文
, 2023
作者:  陈逸群
Adobe PDF(42245Kb)  |  收藏  |  浏览/下载:98/3  |  提交时间:2023/06/27
强化学习,多智能体协作,全局信息,知识蒸馏  
信息不完备条件下的复杂决策问题高效强化学习算法研究 学位论文
, 2023
作者:  赵恩民
Adobe PDF(25370Kb)  |  收藏  |  浏览/下载:198/11  |  提交时间:2023/06/08
信息不完备  复杂决策问题  强化学习  单智能体探索  不完美信息博弈  
平行交通系统中的预测与控制关键技术研究 学位论文
工学博士, 中国科学院自动化研究所: 中国科学院自动化研究所, 2022
作者:  戴星原
Adobe PDF(14868Kb)  |  收藏  |  浏览/下载:283/12  |  提交时间:2022/10/09
平行交通系统  交通预测  交通控制  深度学习  强化学习  
面向Ad-Hoc协作的局部观测重建方法 期刊论文
中国科学院大学学报, 2022, 页码: 1
作者:  陈皓;  杨立昆;  尹奇跃;  黄凯奇
Adobe PDF(1491Kb)  |  收藏  |  浏览/下载:221/41  |  提交时间:2022/06/16
多智能体  深度强化学习  信用分配  Ad-Hoc协作  
对抗场景中的智能体策略泛化研究 学位论文
工学硕士, 中国科学院自动化研究所: 中国科学院自动化研究所, 2022
作者:  陈皓
Adobe PDF(13782Kb)  |  收藏  |  浏览/下载:305/14  |  提交时间:2022/06/16
深度强化学习  多智能体  策略泛化  Ad-Hoc 协作  信用分配  
基于多智能体强化学习的城市道路交通信号控制 学位论文
, 中国科学院自动化研究所: 中国科学院自动化研究所, 2021
作者:  刘皓
Adobe PDF(4749Kb)  |  收藏  |  浏览/下载:220/4  |  提交时间:2021/07/02
交通信号控制  强化学习  多智能体  车联网  
机器人操作技能学习:从模仿到自主 学位论文
, 中国科学院自动化研究所: 中国科学院大学, 2020
作者:  刘乃军
Adobe PDF(18473Kb)  |  收藏  |  浏览/下载:230/11  |  提交时间:2020/09/25
机器人  操作技能学习  模仿学习  生成对抗自主学习  课程学习