QUICK REVIEW

[论文解读] Learning Policy Representations in Multiagent Systems

Aditya Grover, Maruan Al-Shedivat|arXiv (Cornell University)|Jun 17, 2018

Reinforcement Learning in Robotics参考文献 19被引用 43

一句话总结

提出一个无监督的编码器-解码器框架，从少量交互中学习连续策略嵌入，支持下游任务如聚类、结果预测，以及在竞争与合作多智能体系统（MAS）中的策略优化。

ABSTRACT

Modeling agent behavior is central to understanding the emergence of complex phenomena in multiagent systems. Prior work in agent modeling has largely been task-specific and driven by hand-engineering domain-specific prior knowledge. We propose a general learning framework for modeling agent behavior in any multiagent system using only a handful of interaction data. Our framework casts agent modeling as a representation learning problem. Consequently, we construct a novel objective inspired by imitation learning and agent identification and design an algorithm for unsupervised learning of representations of agent policies. We demonstrate empirically the utility of the proposed framework in (i) a challenging high-dimensional competitive environment for continuous control and (ii) a cooperative environment for communication, on supervised predictive tasks, unsupervised clustering, and policy optimization using deep reinforcement learning.

研究动机与目标

在多智能体系统中以有限的交互数据为基础，激励学习可泛化的代理策略表示。
开发一个编码器-解码器框架，学习代理交互 episodes 的嵌入。
结合生成式（模仿学习）与判别式（代理识别）目标以学习有用的策略表示。
证明嵌入有助于下游任务，包括聚类策略、预测结果以及在竞争与合作 MAS 中的策略优化。
提供一个通用的 MAS 表示跨看不见的代理和交互的泛化框架，利用代理-交互图。

提出的方法

定义一个表示函数 f_theta: E -> R^d，将交互 episodes 映射到嵌入。
训练一个条件策略网络 pi_{phi,theta}，使用嵌入来选择动作，优化仿照学习式的交叉熵损失。
在嵌入上引入基于三元组的判别损失，鼓励嵌入的代理特定聚类。
将仿真（模仿学习）生成损失和基于三元组的判别损失结合为一个混合目标：Im_loss + lambda * Id_loss（方程3）。
在每次更新中使用两个不同的 episode（e1, e2），学习使一个 episode 的策略以另一个的嵌入为条件。
在 RoboSumo（竞争）和 ParticleWorld（合作沟通）中进行实验，评估嵌入在聚类、结果预测和策略优化中的有用性。
通过代理-交互图表示泛化，以研究在未见代理、交互和任务中弱/强/广泛的泛化。

实验结果

研究问题

RQ1从有限交互中学习的无监督嵌入是否能泛化到 MAS 中未见的代理和交互？
RQ2生成式（模仿）与判别式（代理识别）目标是否相辅相成，创造更有用的策略表示？
RQ3学习到的嵌入是否对下游任务如聚类策略、预测结果以及在新对手或听众中的策略学习有帮助？
RQ4在竞争与合作 MAS 设置中，嵌入条件的策略是否能更快适应并具有更好的泛化？

主要发现

环境	方法	IICR (W)	IICR (S)	Acc (W)	Acc (S)
RoboSumo	Emb-Im	0.24	0.23	0.71	0.60
RoboSumo	Emb-Id	0.25	0.27	0.67	0.56
RoboSumo	Emb-Hyb	0.22	0.21	0.73	0.56

Emb-Hyb（混合 Im+Id）通常在 RoboSumo 中提供更好的聚类信号（簇内与簇间比率更低），并在竞争结果预测方面优于仅 Im 或 Id。
嵌入使策略优化得到改进，在 PPO 基于训练的 RoboSumo 中，Emb-Hyb 对未见对手具有更好的泛化。
在 ParticleWorld 中，嵌入促进了更好的听众-说话者协作，且用于条件化说话者策略时，平均奖励有所提升，尤其是离线嵌入时。
在线学习的嵌入可以超越基线，但离线嵌入在策略优化任务上往往提供更强的泛化。
该框架在嵌入空间显示出对代理策略的强烈定性分离，嵌入揭示跨 episode 的代理特定结构。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。