QUICK REVIEW

[论文解读] Graph Convolutional Reinforcement Learning

Jiechuan Jiang, Chen Dun|arXiv (Cornell University)|Oct 22, 2018

Reinforcement Learning in Robotics参考文献 37被引用 32

一句话总结

本文提出图卷积强化学习（DGN），一种将多智能体环境建模为动态图的方法，通过关系核的图卷积与时间正则化，学习协作策略。DGN在路由和多智能体游戏等协作任务中显著优于现有方法，通过捕捉智能体间的相互作用，在动态图上实现消息传递，从而实现可扩展且一致的协作。

ABSTRACT

Learning to cooperate is crucially important in multi-agent environments. The key is to understand the mutual interplay between agents. However, multi-agent environments are highly dynamic, where agents keep moving and their neighbors change quickly. This makes it hard to learn abstract representations of mutual interplay between agents. To tackle these difficulties, we propose graph convolutional reinforcement learning, where graph convolution adapts to the dynamics of the underlying graph of the multi-agent environment, and relation kernels capture the interplay between agents by their relation representations. Latent features produced by convolutional layers from gradually increased receptive fields are exploited to learn cooperation, and cooperation is further improved by temporal relation regularization for consistency. Empirically, we show that our method substantially outperforms existing methods in a variety of cooperative scenarios.

研究动机与目标

解决在高度动态的多智能体环境中学习协作策略的挑战，其中智能体关系与邻域随时间快速变化。
比依赖全通信、平均场近似或因果影响的现有方法更有效地建模智能体间的相互作用，避免损失关键的关联信息。
开发一种可扩展的、参数共享的强化学习框架，可在不同智能体数量下良好泛化。
通过关系表征的时间正则化，提升动态环境中协作的一致性。
在诸如网络路由和多智能体游戏等协作任务中，相比最先进MARL基线方法，实现更优性能。

提出的方法

该方法将多智能体环境建模为动态图，其中智能体为节点，其观测为节点特征，边连接每个智能体与其邻居。
使用多头注意力作为卷积核执行图卷积，使模型能够学习与输入顺序无关的智能体间关系表征。
通过堆叠图卷积层，逐步扩大感受野，提取潜在特征，以捕捉多尺度的协作模式。
通过最小化连续时间步间的关系表征之间的KL散度，应用时间关系正则化，促进策略一致性。
将该框架实例化为DGN（深度图网络），一种端到端、参数共享的深度Q网络，可在智能体数量变化时实现泛化。
模型利用动态图上的消息传递，基于局部及扩展邻域信息联合优化策略。

实验结果

研究问题

RQ1图卷积网络能否有效建模多智能体强化学习中的动态智能体交互？
RQ2学习智能体间的关系表征是否能超越平均场或全通信基线方法，提升协作性能？
RQ3对关系表征的时间正则化是否能带来动态环境中更一致、更稳定的协作策略？
RQ4该方法在不重新训练的情况下，对更大数量智能体的泛化能力如何？
RQ5该模型在复杂协作任务（如网络路由和多智能体游戏）中是否优于现有MARL方法？

主要发现

在N=20、L=20的路由任务中，DGN的平均奖励达到1.23，显著优于MFQ（1.02）、CommNet（0.49）和DQN（0.18）。
DGN将平均分组延迟降低至8.0个时间步，吞吐量达到每时间步2.50个分组，优于Floyd带宽限制方案（延迟：8.7，吞吐量：2.30）。
在未重新训练的情况下测试N=60、L=20的场景，DGN保持优异性能，平均奖励达0.73，优于Floyd带宽限制方案，甚至优于性能下降的MFQ（在高负载下表现退化）。
DGN智能体学会在需要时选择替代路径以避免拥塞，展现出超越最短路径路由的战略协作能力。
消融实验表明，图卷积、关系核和时间正则化均对性能提升有显著贡献。
DGN在未重新训练的情况下成功泛化至N=140，展现出强大的可扩展性与对智能体数量增加的鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。