QUICK REVIEW

[论文解读] Multiagent Soft Q-Learning

Ermo Wei, Drew Wicke|arXiv (Cornell University)|Apr 25, 2018

Reinforcement Learning in Robotics参考文献 22被引用 45

一句话总结

本文提出多智能体软Q学习（Multiagent Soft Q-Learning），一种脱离策略、集中训练/去中心化执行的方法，使用软Q学习和深度能量基策略来缓解协作连续博弈中的相对过度泛化问题，并提高联合行动协调。

ABSTRACT

Policy gradient methods are often applied to reinforcement learning in continuous multiagent games. These methods perform local search in the joint-action space, and as we show, they are susceptable to a game-theoretic pathology known as relative overgeneralization. To resolve this issue, we propose Multiagent Soft Q-learning, which can be seen as the analogue of applying Q-learning to continuous controls. We compare our method to MADDPG, a state-of-the-art approach, and show that our method achieves better coordination in multiagent cooperative tasks, converging to better local optima in the joint action space.

研究动机与目标

动机：在具有连续动作的合作多智能体强化学习中，协调挑战及相对过度泛化病理现象。
提出一个集中训练、去中心化执行的框架，以提升连续博弈中的协调。
开发一种多智能体软Q学习方法，将软Q学习与深度能量基策略结合，以避免过度泛化并改善联合行动空间中的局部最优。

提出的方法

在合作随机博弈框架下给出问题的形式化，并分析策略梯度方法的相对过度泛化病理。
采用带有深度能量基策略的软Q学习，以实现多模态行动分布并更好地探索联合行动空间。
使用跨代理共享的集中式 critic 与个体代理的策略，并对熵温度参数 alpha 进行退火以驱动探索并实现收敛。
解释并实现一个多智能体扩展，使代理通过中心Q函数学习联合行动策略，并使用 SVGD 做近似从类似 softmax 的能量基策略进行采样。
提供算法1，概述集中式 critic 更新和每个代理的联合行动策略更新。
在一个两代理、单状态的连续博弈中进行实证评估，与 MADDPG 进行比较并展示对更好均衡的收敛改进。

实验结果

研究问题

RQ1集中训练结合基于软Q学习的方法是否能够克服协作性连续博弈中的相对过度泛化？
RQ2采用带熵正则化的深度能量基策略是否能改善多模态探索及在联合行动空间中的协调？
RQ3在协作任务中，多智能体软Q学习与MADDPG在收敛到更好局部最优方面的比较？
RQ4退火温度参数 alpha 对发现并锁定更优联合行动的影响是什么？

主要发现

在所测试的连续协作任务中，多智能体软Q学习比MADDPG更频繁收敛到更好的均衡（72%，MADDPG从未收敛到更好的均衡）。
对 alpha 的退火有助于将方法从全局联合行动探索过渡到利用更好的联合行动，从而提高协调性。
该方法利用集中训练以访问联合行动Q函数，同时保持去中心化执行，降低共适应。
该方法继承了软Q学习的优势，使行动分布多模态并在连续博弈中更好地探索联合行动空间。
经验评估使用一个最大值为两个二次函数的游戏，以说明在联合行动空间中的改进协调和局部最优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。