基于不确定度的多智能体信用分配方法
杨光开1,2; 陈皓1,2; 张茗奕1; 尹奇跃1,2; 黄凯奇1,2,3
发表期刊中国科学院大学学报
2022-05
页码0
摘要

近年来,部分可观测条件下多智能体协同受到广泛关注。中心化训练分布式执行作为处理这类任务的通用范式面临信用分配这一核心问题。 值分解是该范式中的代表性方法,通过混合网络将联合状态动作值函数分解为多个局部观察动作值函数以实现信用分配, 在很多问题中表现很好。 然而这些方法维持对混合网络参数的单一点估计,因缺乏不确定度表示而难以有效应对环境中的随机因素导致只能收敛到次优策略。 为了缓解这一问题,本文对混合网络进行贝叶斯分析, 提出了一种基于不确定度的多智能体信用分配方法, 通过显式地量化参数的不确定度来指导信用分配。 考虑到智能体之间复杂的交互, 本文利用贝叶斯超网络隐式地建模参数任意复杂的后验分布, 以避免先验地指定分布类型而陷于局部最优解。 本文在星际争霸微操环境中的多个地图上与代表性算法的性能进行对比与分析, 验证了算法的有效性。
 

语种中文
资助项目National Natural Science Foundation of China[61876181] ; National Natural Science Foundation of China[61876181]
文献类型期刊论文
条目标识符http://ir.ia.ac.cn/handle/173211/48976
专题复杂系统认知与决策实验室_智能系统与工程
通讯作者黄凯奇
作者单位1.中科院自动化所
2.中国科学院大学人工智能学院
3.中国科学院脑科学与智能技术卓越创新中心
第一作者单位中国科学院自动化研究所
通讯作者单位中国科学院自动化研究所
推荐引用方式
GB/T 7714
杨光开,陈皓,张茗奕,等. 基于不确定度的多智能体信用分配方法[J]. 中国科学院大学学报,2022:0.
APA 杨光开,陈皓,张茗奕,尹奇跃,&黄凯奇.(2022).基于不确定度的多智能体信用分配方法.中国科学院大学学报,0.
MLA 杨光开,et al."基于不确定度的多智能体信用分配方法".中国科学院大学学报 (2022):0.
条目包含的文件 下载所有文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
基于不确定度的多智能体信用分配方法.pd(1076KB)期刊论文作者接受稿开放获取CC BY-NC-SA浏览 下载
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[杨光开]的文章
[陈皓]的文章
[张茗奕]的文章
百度学术
百度学术中相似的文章
[杨光开]的文章
[陈皓]的文章
[张茗奕]的文章
必应学术
必应学术中相似的文章
[杨光开]的文章
[陈皓]的文章
[张茗奕]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 基于不确定度的多智能体信用分配方法.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。