QUICK REVIEW

[论文解读] ROMA: Multi-Agent Reinforcement Learning with Emergent Roles

Tonghan Wang, Heng Dong|arXiv (Cornell University)|Mar 18, 2020

Reinforcement Learning in Robotics参考文献 59被引用 32

一句话总结

ROMA 在多智能体强化学习（MARL）中引入新兴的、面向角色的策略，使用可辨识性与专业化正则化来实现动态分工并在星际争霸 II 微观管理基准上提升性能。

ABSTRACT

The role concept provides a useful tool to design and understand complex multi-agent systems, which allows agents with a similar role to share similar behaviors. However, existing role-based methods use prior domain knowledge and predefine role structures and behaviors. In contrast, multi-agent reinforcement learning (MARL) provides flexibility and adaptability, but less efficiency in complex tasks. In this paper, we synergize these two paradigms and propose a role-oriented MARL framework (ROMA). In this framework, roles are emergent, and agents with similar roles tend to share their learning and to be specialized on certain sub-tasks. To this end, we construct a stochastic role embedding space by introducing two novel regularizers and conditioning individual policies on roles. Experiments show that our method can learn specialized, dynamic, and identifiable roles, which help our method push forward the state of the art on the StarCraft II micromanagement benchmark. Demonstrative videos are available at https://sites.google.com/view/romarl/.

研究动机与目标

促使将角色概念与 MARL 相结合，以提升在复杂任务中的学习效率。
实现跨智能体的动态、可识别且专业化的新兴角色。
开发一个具有可处理优化性的基于角色条件的策略机制。

提出的方法

引入一个随机的角色嵌入空间，其中每个智能体的角色从一个可学习的高斯分布中抽取，条件于局部观测。
使用角色编码器生成角色参数，使用角色解码器（超网络）生成策略参数。
施加两个正则化项：一个基于变分互信息的可辨识角色目标，和一个使用带变分界的相异性模型的专业化角色目标。
采用集中训练、去中心化执行，使用 QMIX 风格的混合网络来计算全局价值。
用时间差分（TD）损失以及以 lambda_I 和 lambda_D 加权的正则化项来优化总体目标。
通过在星际争霸 II 地图上的可视化和消融分析，演示角色的出现与专业化。

实验结果

研究问题

RQ1学习到的角色是否能够动态适应变化的环境？
RQ2学习到的角色是否会导致子任务专业化，其中相似角色共享相似的策略？
RQ3子任务专业化是否在具有挑战性的基准任务上提升 MARL 的性能？
RQ4在训练过程中角色如何出现和演变，以及它们如何与团队绩效相关？
RQ5相异性模型是否能够学习有意义的基于轨迹的角色区分？

主要发现

ROMA 学习到动态角色表示，按子任务聚类并随敌方编成和智能体健康状况而调整。
专业化正则化项提升了性能，并带来比基线更高效的分工。
在多个 StarCraft II SMAC 地图上，ROMA 的表现优于基线，包括异构与同构智能体设置。
角色嵌入揭示了可解释的子任务，如编队塑形与保护性机动，在训练中逐步显现。
相异性模型 d_phi 捕捉到智能体之间基于轨迹的差异，将高差异性与不同单位类型对齐。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。