一种用于两人零和博弈对手适应的元策略演化学习算法
吴哲1,2; 李凯1,2; 徐航1,2; 兴军亮1,2
发表期刊自动化学报
2022-03-14
页码0
摘要

围绕两人零和博弈所开展的一系列研究, 近年来在围棋、德州扑克等问题中取得了里程碑式的突破. 现有的两人零和 博弈求解方案大多在理性对手的假设下围绕纳什均衡解开展, 是一种力求不败的保守型策略, 但在实际博弈中由于对手非理 性等原因并不能保证收益最大化. 对手建模为最大化博弈收益提供了一种新途径, 但仍存在建模困难等问题. 结合元学习的思 想提出了一种能够快速适应对手策略的元策略演化学习求解框架. 在训练阶段, 首先通过种群演化的方法不断生成风格多样 化的博弈对手作为训练数据, 然后利用元策略更新方法来调整元模型的网络权重, 使其获得快速适应的能力. 在Leduc扑克、 两人有限注德州扑克和RoboSumo上的大量实验结果表明, 本算法能够有效克服现有方法的弊端, 实现针对未知风格对手的快 速适应, 从而为两人零和博弈收益最大化求解提供了一种新思路.

语种中文
文献类型期刊论文
条目标识符http://ir.ia.ac.cn/handle/173211/48790
专题复杂系统认知与决策实验室_智能系统与工程
通讯作者兴军亮
作者单位1.中国科学院自动化研究所智能系统与工程研究中心
2.中国科学院大学人工智能学院
第一作者单位中国科学院自动化研究所
通讯作者单位中国科学院自动化研究所
推荐引用方式
GB/T 7714
吴哲,李凯,徐航,等. 一种用于两人零和博弈对手适应的元策略演化学习算法[J]. 自动化学报,2022:0.
APA 吴哲,李凯,徐航,&兴军亮.(2022).一种用于两人零和博弈对手适应的元策略演化学习算法.自动化学报,0.
MLA 吴哲,et al."一种用于两人零和博弈对手适应的元策略演化学习算法".自动化学报 (2022):0.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
一种用于两人零和博弈对手适应的元策略演化(15953KB)期刊论文作者接受稿开放获取CC BY-NC-SA浏览
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[吴哲]的文章
[李凯]的文章
[徐航]的文章
百度学术
百度学术中相似的文章
[吴哲]的文章
[李凯]的文章
[徐航]的文章
必应学术
必应学术中相似的文章
[吴哲]的文章
[李凯]的文章
[徐航]的文章
相关权益政策
暂无数据
收藏/分享
文件名: 一种用于两人零和博弈对手适应的元策略演化学习算法.pdf
格式: Adobe PDF
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。