[论文解读] Coordinated Multi-Agent Imitation Learning
本文提出了一个半监督框架,联合学习潜在协调模型和个体策略,以进行多代理模仿,通过交替优化来推断角色分配并提升模仿损失。
We study the problem of imitation learning from demonstrations of multiple coordinating agents. One key challenge in this setting is that learning a good model of coordination can be difficult, since coordination is often implicit in the demonstrations and must be inferred as a latent variable. We propose a joint approach that simultaneously learns a latent coordination model along with the individual policies. In particular, our method integrates unsupervised structure learning with conventional imitation learning. We illustrate the power of our approach on a difficult problem of learning multiple policies for fine-grained behavior modeling in team sports, where different players occupy different roles in the coordinated team strategy. We show that having a coordination model to infer the roles of players yields substantially improved imitation loss compared to conventional baselines.
研究动机与目标
- 为多个协同代理的模仿学习提供动机,在其中协调是隐含的且角色未被观测。
- 提出一个半监督框架,将结构化的潜在协调学习与传统的模仿学习结合起来。
- 开发一种交替优化方案,以有效训练潜在结构模型和个体策略。
- 在合成的(捕食者-猎物)和接近真实世界的(职业足球)多代理任务上验证该方法,以展示改进的模仿性能。
提出的方法
- 将协同模仿表述为学习多个分散策略,以及一个在演示之间为代理指派角色的潜在协调模型。
- 使用图形模型 q 来编码协调结构,以及一个角色分配 A,用于对轨迹进行重索引,以与学习到的角色对齐。
- 采用基于归约的多代理策略模仿学习方法,以便使用黑箱预测器(如深度网络、随机森林)。
- 采用随机变分推断来学习协调结构的 q(θ,z),其中潜在角色序列 z 被建模为隐藏马尔科夫过程。
- 通过线性分配问题(Kuhn–Munkres)求解角色分配,使用来自潜在模型和轨迹似然的代价矩阵。
- 以交替方式训练(Algorithm 1):(i) 固定结构并学习策略(Algorithm 2),(ii) 更新潜在结构和角色分配(Algorithm 3/Algorithm 4)。
- 在角色分配上加入熵正则化,以鼓励索引的有用多样化(最大化 H(A|D))。
实验结果
研究问题
- RQ1是否可以与策略共同学习潜在协调模型,以推断多代理演示中未观测的角色?
- RQ2将结构化角色分配结合进来,是否能相比于无结构的多代理模仿学习,在模仿损失上有改善?
- RQ3交替优化框架在解决多代理模仿中的非平稳性和协变量漂移方面有多有效?
- RQ4在合成(捕食者-猎物)和接近真实世界的(足球)领域中,协调角色分配对性能的影响如何?
主要发现
- 协同方法在合成和足球域中都明显优于基线,获得更好的模仿性能。
- 通过潜在结构模型进行的角色推断使状态表示更加一致,有利于策略学习并提升协调。
- 该方法表明通过潜在角色学习来实现协同可以扩展到大规模多代理设置(例如拥有多名防守球员和长轨迹的足球)。
- 在学会协调的情况下,使用协调角色分配训练的分散策略在性能上可与集中式策略竞争或相当。
- 该方法是首次在所述设定下将模仿学习应用于联合学习合作多代理策略的大规模场景。
- 所学的协调结构(HMM 组件)揭示了在比赛中与常见球队阵型和角色转换相对应的主导模式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。