QUICK REVIEW

[论文解读] A New Framework for Multi-Agent Reinforcement Learning -- Centralized Training and Exploration with Decentralized Execution via Policy Distillation

Gang Chen|arXiv (Cornell University)|Oct 21, 2019

Reinforcement Learning in Robotics被引用 28

一句话总结

本文提出CTEDD，一种多智能体强化学习框架，通过利用全局策略进行集中式训练与探索，随后通过策略蒸馏实现去中心化执行。通过采用最大熵强化学习实现平衡探索，将全局策略蒸馏为本地、支持通信的策略，CTEDD在多个基准测试中实现了优于SOTA基线方法（如MADDPG）的样本效率和性能表现。

ABSTRACT

Deep reinforcement learning (DRL) is a booming area of artificial intelligence. Many practical applications of DRL naturally involve more than one collaborative learners, making it important to study DRL in a multi-agent context. Previous research showed that effective learning in complex multi-agent systems demands for highly coordinated environment exploration among all the participating agents. Many researchers attempted to cope with this challenge through learning centralized value functions. However, the common strategy for every agent to learn their local policies directly often fail to nurture strong inter-agent collaboration and can be sample inefficient whenever agents alter their communication channels. To address these issues, we propose a new framework known as centralized training and exploration with decentralized execution via policy distillation. Guided by this framework and the maximum-entropy learning technique, we will first train agents' policies with shared global component to foster coordinated and effective learning. Locally executable policies will be derived subsequently from the trained global policies via policy distillation. Experiments show that our new framework and algorithm can achieve significantly better performance and higher sample efficiency than a cutting-edge baseline on several multi-agent DRL benchmarks.

研究动机与目标

解决复杂多智能体系统中协调探索的挑战，其中智能体必须协同行动以实现全局结果。
克服多智能体深度强化学习中直接学习本地策略所固有的样本效率低下和协调性差的问题。
实现灵活且具备通信鲁棒性的策略，即使在通信通道发生变化时仍能保持有效性。
通过将训练期间的全局协调与推理期间的去中心化执行解耦，提升学习效率。
整合最大熵强化学习，以协调、系统化的方式平衡探索与利用。

提出的方法

训练一个共享的全局深度神经网络（DNN），处理完整状态输入，实现可访问全局信息的集中式策略学习。
采用最大熵强化学习，以促进智能体之间多样化、协调的探索，平衡探索与利用。
应用策略蒸馏，将全局策略转化为仅依赖于每个智能体本地观测的本地可执行策略。
通过复用同一全局策略，支持多种通信通道配置（例如一维或三维消息交换），而无需重新训练。
实现训练与执行的解耦：全局策略训练为集中式，而最终策略以去中心化、可扩展的方式执行。
使用包含局部与全局组件的共享全局DNN，以在保留协调能力的同时支持策略蒸馏。

实验结果

研究问题

RQ1使用全局策略监督的集中式训练是否能提升多智能体强化学习中的协调性与样本效率？
RQ2从全局策略蒸馏出的策略如何在保持性能的同时实现有效的去中心化执行？
RQ3最大熵学习在多智能体系统中在多大程度上增强了协调探索？
RQ4同一全局策略是否可在无需重新训练的情况下复用于不同通信通道配置？
RQ5CTEDD在样本效率和最终性能方面与SOTA方法（如MADDPG）相比如何？

主要发现

在约150,000个学习回合后，CTEDD-L-3在CN-V1环境中的测试性能达到-390，优于需要两倍回合数的MADDPG-3。
蒸馏后的本地策略（CTEDD-L-1和CTEDD-L-3）在某一阶段内与全局策略（CTEDD-G）的性能高度接近，证实了知识迁移的有效性。
采用最大熵强化学习实现了探索的最优平衡，而次优的标准差设置导致性能下降，而本方法实现了最佳的学习速度与最终性能。
同一全局策略可在无需额外环境样本的情况下，用于不同通信通道配置下的本地策略训练，展示了极高的样本效率。
在所有评估环境中，CTEDD在学习速度和最终测试性能方面均显著优于MADDPG-1和MADDPG-3。
由于全局协调与本地策略执行的解耦，该框架在通信通道改变时仍能保持强劲性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。