Knowledge Commons of Institute of Automation,CAS
一种用于两人零和博弈对手适应的元策略演化学习算法 | |
吴哲1,2; 李凯1,2; 徐航1,2; 兴军亮1,2 | |
发表期刊 | 自动化学报 |
2022-03-14 | |
页码 | 0 |
摘要 | 围绕两人零和博弈所开展的一系列研究, 近年来在围棋、德州扑克等问题中取得了里程碑式的突破. 现有的两人零和 博弈求解方案大多在理性对手的假设下围绕纳什均衡解开展, 是一种力求不败的保守型策略, 但在实际博弈中由于对手非理 性等原因并不能保证收益最大化. 对手建模为最大化博弈收益提供了一种新途径, 但仍存在建模困难等问题. 结合元学习的思 想提出了一种能够快速适应对手策略的元策略演化学习求解框架. 在训练阶段, 首先通过种群演化的方法不断生成风格多样 化的博弈对手作为训练数据, 然后利用元策略更新方法来调整元模型的网络权重, 使其获得快速适应的能力. 在Leduc扑克、 两人有限注德州扑克和RoboSumo上的大量实验结果表明, 本算法能够有效克服现有方法的弊端, 实现针对未知风格对手的快 速适应, 从而为两人零和博弈收益最大化求解提供了一种新思路. |
语种 | 中文 |
文献类型 | 期刊论文 |
条目标识符 | http://ir.ia.ac.cn/handle/173211/48790 |
专题 | 复杂系统认知与决策实验室_智能系统与工程 |
通讯作者 | 兴军亮 |
作者单位 | 1.中国科学院自动化研究所智能系统与工程研究中心 2.中国科学院大学人工智能学院 |
第一作者单位 | 中国科学院自动化研究所 |
通讯作者单位 | 中国科学院自动化研究所 |
推荐引用方式 GB/T 7714 | 吴哲,李凯,徐航,等. 一种用于两人零和博弈对手适应的元策略演化学习算法[J]. 自动化学报,2022:0. |
APA | 吴哲,李凯,徐航,&兴军亮.(2022).一种用于两人零和博弈对手适应的元策略演化学习算法.自动化学报,0. |
MLA | 吴哲,et al."一种用于两人零和博弈对手适应的元策略演化学习算法".自动化学报 (2022):0. |
条目包含的文件 | ||||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
一种用于两人零和博弈对手适应的元策略演化(15953KB) | 期刊论文 | 作者接受稿 | 开放获取 | CC BY-NC-SA | 浏览 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[吴哲]的文章 |
[李凯]的文章 |
[徐航]的文章 |
百度学术 |
百度学术中相似的文章 |
[吴哲]的文章 |
[李凯]的文章 |
[徐航]的文章 |
必应学术 |
必应学术中相似的文章 |
[吴哲]的文章 |
[李凯]的文章 |
[徐航]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论