QUICK REVIEW

[论文解读] Hierarchical Cooperative Multi-Agent Reinforcement Learning with Skill Discovery

Jiachen Yang, Igor Borovikov|arXiv (Cornell University)|Dec 7, 2019

Sports Analytics and Performance被引用 28

一句话总结

该论文提出了一种分层协作多智能体强化学习框架，通过低层级基于内在奖励的学习发现不同且可解释的技能，同时在高层级采用集中式策略训练并结合外在团队奖励。该方法实现了可扩展的去中心化执行，在随机性团队运动环境中实现了卓越的团队性能，并通过涌现的、可解码的技能实现了有效的人机协作，而无需为每项技能手工设计奖励。

ABSTRACT

Human players in professional team sports achieve high level coordination by dynamically choosing complementary skills and executing primitive actions to perform these skills. As a step toward creating intelligent agents with this capability for fully cooperative multi-agent settings, we propose a two-level hierarchical multi-agent reinforcement learning (MARL) algorithm with unsupervised skill discovery. Agents learn useful and distinct skills at the low level via independent Q-learning, while they learn to select complementary latent skill variables at the high level via centralized multi-agent training with an extrinsic team reward. The set of low-level skills emerges from an intrinsic reward that solely promotes the decodability of latent skill variables from the trajectory of a low-level skill, without the need for hand-crafted rewards for each skill. For scalable decentralized execution, each agent independently chooses latent skill variables and primitive actions based on local observations. Our overall method enables the use of general cooperative MARL algorithms for training high level policies and single-agent RL for training low level skills. Experiments on a stochastic high dimensional team game show the emergence of useful skills and cooperative team play. The interpretability of the learned skills show the promise of the proposed method for achieving human-AI cooperation in team sports games.

研究动机与目标

实现完全协作的多智能体强化学习，支持可扩展的去中心化执行与集中式训练。
在无需为每项技能手工设计奖励的情况下，发现有用、独特且可解释的技能。
通过高层级技能选择与低层级原始动作执行，实现动态、协调的团队协作。
通过支持可解释、模块化的策略，促进团队运动游戏中的人机协作。
解决高维、随机性多智能体环境中长期信用分配与样本复杂性问题。

提出的方法

低层级策略通过Q学习独立训练，采用动态加权的内在奖励，以促进从轨迹中解码潜在技能变量。
高层级策略通过多智能体强化学习（如QMIX）集中训练，基于团队级外在奖励选择互补的潜在技能变量。
内在奖励设计用于最大化潜在技能变量与观测轨迹之间的互信息，从而实现无监督技能发现。
该方法采用课程学习机制，根据性能阈值和步长动态调整内在奖励与外在奖励的平衡。
每个智能体基于本地观测选择其高层级技能与低层级动作，实现可扩展的去中心化执行。
该框架将高层级协作策略学习与低层级技能学习解耦，允许在高层级使用标准MARL算法，在低层级使用单智能体强化学习。

实验结果

研究问题

RQ1分层MARL框架是否能在无需为每项技能手工设计奖励的情况下，发现有用、独特且可解释的技能？
RQ2基于团队奖励对高层级策略进行集中式训练，是否能在随机性高维环境中形成有效且协作的团队策略？
RQ3基于技能可解码性的内在奖励是否能在多智能体设置中实现稳定且有意义的技能涌现？
RQ4该方法在与未训练过的队友（如人类玩家或脚本化智能体）进行临时协作时表现如何？
RQ5哪些超参数在分层框架中对技能发现与团队性能影响最大？

主要发现

HSD在团队胜率上优于QMIX与IQL，在配备两名脚本队友时达到52%胜率，无脚本队友时达到46%胜率，表明其在临时协作场景中具有鲁棒性。
当一个智能体被固定为始终执行防守或进攻技能时，该方法仍保持稳定性能，误差范围在可接受范围内。
α_threshold值较大（如0.6）时性能更高且方差更小，而较小值导致过早重加权，引发不稳定性。
较小的α_step值提升了学习稳定性与性能，因为更小的奖励调整使课程进展更平滑。
持续执行技能10或20个时间步的智能体优于每5步切换一次技能的智能体，表明更长的技能持续时间有助于策略学习。
涌现的技能在定量上具有明显差异且可解释，其行为模式清晰可从智能体轨迹中解码，支持人机协作。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。