当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 星际争霸II协作对抗基准超越SOTA,新型Transformer架构解决多智能体强化学习问题

星际争霸II协作对抗基准超越SOTA,新型Transformer架构解决多智能体强化学习问题

来源:51CTO.COM 2023-04-26 15:10:09 0浏览 收藏

今天golang学习网给大家带来了《星际争霸II协作对抗基准超越SOTA,新型Transformer架构解决多智能体强化学习问题》,其中涉及到的知识点包括等等,无论你是小白还是老手,都适合看一看哦~有好的建议也欢迎大家在评论留言,若是看完有所收获,也希望大家能多多点赞支持呀!一起加油学习~

多智能体强化学习 (MARL) 是一个具有挑战性的问题,它不仅需要识别每个智能体的策略改进方向,而且还需要将单个智能体的策略更新联合起来,以提高整体性能。最近,这一问题得到初步解决,有研究人员引入了集中训练分散执行 (CTDE) 的方法,使智能体在训练阶段可以访问全局信息。然而,这些方法无法涵盖多智能体交互的全部复杂性。

事实上,其中一些方法还被证明是失败的。为了解决这个问题,有人提出多智能体优势分解定理。在此基础上,HATRPO 和 HAPPO 算法被推导出来。然而,这些方法也存在局限性,这些方法仍然依赖于精心设计的最大化目标。

近年来,序列模型(SM)在自然语言处理(NLP)领域取得了实质性进展。如 GPT 系列、BERT 在广泛的下游任务上表现出色,并且在小样本泛化任务上取得了较强的性能。

由于序列模型与语言的序列特性自然契合,因此可用于语言任务,但是序列方法不仅限于 NLP 任务,而是一种广泛适用的通用基础模型。例如,在计算机视觉 (CV) 中,可以将图像分割成子图并将它们按序列排列,就好像它们是 NLP 任务中的 token 一样 。近期比较出名的模型 Flamingo、DALL-E 、 GATO 等都有序列方法的影子。

随着 Transformer 等网络架构的出现,序列建模技术也引起了 RL 社区的极大关注,这促进了一系列基于 Transformer 架构的离线 RL 开发。这些方法在解决一些最基本的 RL 训练问题方面显示出了巨大的潜力。

尽管这些方法取得了显著的成功,但没有一种方法被设计用来建模多智能体系统中最困难 (也是 MARL 独有的) 的方面——智能体之间的交互。事实上,如果简单地赋予所有智能体一个 Transformer 策略,并对其进行单独训练,这仍然不能保证能提高 MARL 联合性能。因此,虽然有大量强大的序列模型可用,但 MARL 并没有真正利用序列模型性能优势。

如何用序列模型解决 MARL 问题?来自上海交通大学、Digital Brain Lab、牛津大学等的研究者提出一种新型多智能体 Transformer(MAT,Multi-Agent Transformer)架构,该架构可以有效地将协作 MARL 问题转化为序列模型问题,其任务是将智能体的观测序列映射到智能体的最优动作序列。

本文的目标是在 MARL 和 SM 之间建立桥梁,以便为 MARL 释放现代序列模型的建模能力。MAT 的核心是编码器 - 解码器架构,它利用多智能体优势分解定理,将联合策略搜索问题转化为序列决策过程,这样多智能体问题就会表现出线性时间复杂度,最重要的是,这样做可以保证 MAT 单调性能提升。与 Decision Transformer 等先前技术需要预先收集的离线数据不同,MAT 以在线策略方式通过来自环境的在线试验和错误进行训练。

图片


  • 论文地址:https://arxiv.org/pdf/2205.14953.pdf
  • 项目主页:https://sites.google.com/view/multi-agent-transformer

为了验证 MAT,研究者在 StarCraftII、Multi-Agent MuJoCo、Dexterous Hands Manipulation 和 Google Research Football 基准上进行了广泛的实验。结果表明,与 MAPPO 和 HAPPO 等强基线相比,MAT 具有更好的性能和数据效率。此外,该研究还证明了无论智能体的数量如何变化,MAT 在没见过的任务上表现较好,可是说是一个优秀的小样本学习者。

背景知识

在本节中,研究者首先介绍了协作 MARL 问题公式和多智能体优势分解定理,这是本文的基石。然后,他们回顾了现有的与 MAT 相关的 MARL 方法,最后引出了 Transformer。

图片

传统多智能体学习范式(左)和多智能体序列决策范式(右)的对比。

问题公式

协作 MARL 问题通常由离散的部分可观察马尔可夫决策过程(Dec-POMDPs)图片来建模。

多智能体优势分解定理

智能体通过 Q_π(o, a)和 V_π(o)来评估行动和观察的值,定义如下。

图片

​定理 1(多智能体优势分解):令 i_1:n 为智能体的排列。如下公式始终成立,无需进一步假设。

图片

​重要的是,定理 1 提供了一种用于指导如何选择渐进式改进行动的直觉。

现有 MARL 方法

研究者总结了目前两种 SOTA MARL 算法,它们都构建在近端策略优化(Proximal Policy Optimization, PPO)之上。PPO 是一种以简洁性和性能稳定性闻名的 RL 方法。

多智能体近端策略优化(MAPPO)是首个将 PPO 应用于 MARL 中的最直接方法。

图片

​异构智能体近端策略优化(HAPPO)是目前的 SOTA 算法之一,它可以充分利用定理 (1) 以实现具有单调提升保证的多智能体信任域学习。

图片

Transformer 模型

基于定理 (1) 中描述的序列属性以及 HAPPO 背后的原理,现在可以直观地考虑用 Transformer 模型来实现多智能体信任域学习。通过将一个智能体团队视作一个序列,Transformer 架构允许建模具有可变数量和类型的智能体团队,同时可以避免 MAPPO/HAPPO 的缺点。

多智能体 Transformer

为了实现 MARL 的序列建模范式,研究者提供的解决方案是多智能体 Transformer(MAT)。应用 Transformer 架构的思路源于这样一个事实,即智能体观察序列 (o^i_1,...,o^i_n) 输入与动作序列(a^ i_1 , . . . , a^i_n)输出之间的映射是类似于机器翻译的序列建模任务。正如定理 (1) 所回避的,动作 a^i_m 依赖于先前所有智能体的决策 a ^i_1:m−1。

因此,如下图(2)所示,MAT 中包含了一个用于学习联合观察表示的编码器和一个以自回归方式为每个智能体输出动作的解码器。

图片


​编码器的参数用φ 表示,它以任意顺序获取观察序列(o^i_1 , . . . , o^i_n),并将它们传递通过几个计算块。每个块都由一个自注意力机制、一个多层感知机(MLP)和残差连接组成,以防止随深度增加出现梯度消失和网络退化。

解码器的参数用θ表示,它将嵌入的联合动作 a^i_0:m−1 , m = {1, . . . n}(其中 a^i_0 是指示解码开始的任意符号)传递到解码块序列。至关重要的是,每个解码块都有一个掩码的自注意力机制。为了训练解码器,研究者将如下裁剪 PPO 目标最小化。

图片

MAT 中的详细数据流如下动图所示。

图片

​实验结果

为了评估 MAT 是否符合预期,研究者在星际争霸 II 多智能体挑战(SMAC)基准(MAPPO 在之上具有优越性能)和多智能体 MuJoCo 基准上(HAPPO 在之上具有 SOTA 性能)对 MAT 进行了测试。

此外,研究者还在 Bimanual Dxterous Hand Manipulation (Bi-DexHands)和 Google Research Football 基准上了对 MAT 进行了扩展测试。前者提供了一系列具有挑战性的双手操作任务,后者提供了一系列足球游戏中的合作场景。

最后,由于 Transformer 模型通常在小样本任务上表现出强大的泛化性能,因此研究者相信 MAT 在未见过的 MARL 任务上也能具有类似强大的泛化能力。因此,他们在 SMAC 和多智能体 MuJoCo 任务上设计了零样本和小样本实验。

协作 MARL 基准上的性能

如下表 1 和图 4 所示,对于 SMAC、多智能体 MuJoCo 和 Bi-DexHands 基准来说,MAT 在几乎所有任务上都显著优于 MAPPO 和 HAPPO,表明它在同构和异构智能体任务上强大的构建能力。此外,MAT 还得到了优于 MAT-Dec 的性能,表明了 MAT 设计中解码器架构的重要性。

图片


图片

同样地,研究者在 Google Research Football 基准上也得到了类似的性能结果,如下图 5 所示。

图片

MAT 用于小样本学习

表 2 和表 3 中总结了每种算法的零样本和小样本结果,其中粗体数字表示最佳性能。

研究者还提供了数据相同情况下 MAT 的性能,其与对照组一样从头开始训练。如下表所示,MAT 获得了大多数最好成绩,这证明了 MAT 小样本学习的强大泛化性能。

图片

今天关于《星际争霸II协作对抗基准超越SOTA,新型Transformer架构解决多智能体强化学习问题》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于智能,强化学习,架构的内容请关注golang学习网公众号!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
打造有国际影响力的创新“高地”AI省级法规即将实施打造有国际影响力的创新“高地”AI省级法规即将实施
上一篇
打造有国际影响力的创新“高地”AI省级法规即将实施
AI 模型第一次有了国家标准:华为、百度、北大、鹏城实验室等编制,辐射 AMD
下一篇
AI 模型第一次有了国家标准:华为、百度、北大、鹏城实验室等编制,辐射 AMD
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ljg-skills -
    ljg-skills
    ljg-skills 是李继刚开源的 AI 技能与提示词集合,面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板,适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。
    3050次使用
  • MELO音乐 - AI 音乐生成平台,支持多模态创作能力
    MELO音乐
    MELO音乐是一站式AI视频与音乐制作助手,对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐,MELO为你免费谱曲,轻松做同款!
    2812次使用
  • UniScribe - AI 免费在线音视频转文字平台
    UniScribe
    UniScribe 是一款 AI 音视频转文字与内容整理工具,支持上传音频、视频文件或粘贴 YouTube 链接,自动生成转写文本、摘要、思维导图和关键问题,并支持多格式导出,适合会议记录、课程学习、访谈整理和内容创作复盘。
    2753次使用
  • 剧云 - 免费 AI 智能中文剧本创作平台
    剧云
    剧云是专业中文剧本创作平台,安全稳定运行十余年,集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能,数据安全防护,轻松高效创作剧本。
    2979次使用
  • 万象有声 - AI 一站式有声内容创作平台
    万象有声
    万象有声,一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具,可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验,让有声书制作更简单!
    2929次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码