QUICK REVIEW

[论文解读] Reducing Overestimation Bias in Multi-Agent Domains Using Double Centralized Critics

Johannes Ackermann, Volker Gabler|arXiv (Cornell University)|Oct 3, 2019

Reinforcement Learning in Robotics参考文献 25被引用 70

一句话总结

本论文在多智能体强化学习中识别了高估偏差，并提出 MATD3，一种双重集中式评论家方法，以减轻该偏差并在合作-竞争任务及高维机器人场景中提升性能。

ABSTRACT

Many real world tasks require multiple agents to work together. Multi-agent reinforcement learning (RL) methods have been proposed in recent years to solve these tasks, but current methods often fail to efficiently learn policies. We thus investigate the presence of a common weakness in single-agent RL, namely value function overestimation bias, in the multi-agent setting. Based on our findings, we propose an approach that reduces this bias by using double centralized critics. We evaluate it on six mixed cooperative-competitive tasks, showing a significant advantage over current methods. Finally, we investigate the application of multi-agent methods to high-dimensional robotic tasks and show that our approach can be used to learn decentralized policies in this domain.

研究动机与目标

激发并理解多智能体强化学习中价值函数高估偏差的存在。
提出一种使用双重集中式评论家的新MARL算法以减少高估偏差。
在粒子环境中的六个混合式协作-竞争任务上评估所提方法。
展示该方法在学习高维机器人任务的完全去中心化策略方面的适用性。

提出的方法

将 TD3 扩展到具有集中训练和去中心化执行的多智能体设置。
对每个代理使用两个集中式评论家并取最小值以形成目标 y_i，以降低高估。
在评论家更新中通过向下一步动作添加裁剪的高斯噪声来实现目标策略平滑。
引入延迟策略更新，以确保在进行策略更新前评论家具有足够的准确性。
使用第一个评论家来更新策略，同时在学习过程中保留第二个评论家以获得稳定的目标。

实验结果

研究问题

RQ1在像 MADDPG 这样的多智能体域中，高估偏差是否依然存在？它如何影响学习性能？
RQ2双重集中式评论家机制（MATD3）是否能够降低高估偏差并在混合协作-竞争的 MARL 任务中提升性能？
RQ3在协作和对抗环境以及高维机器人设置中，MATD3 与 MADDPG 的比较如何？
RQ4延迟策略更新和目标策略平滑是否会影响上述领域中的 MARL 性能？

主要发现

MADDPG 在协作性 MARL 任务中倾向于高估 Q 值，与较差的最终性能相关。
在大多数粒子域任务中，MATD3 明显优于 MADDPG，特别是在协作环境中。
在对抗域中，MATD3 在若干任务上优于 MADDPG，尽管也存在某些任务（如 Covert Communication）MADDPG 能更快适应。
延迟策略更新在大多数任务中降低方差并提升最终性能，但在某些任务（如 Covert Communication）存在例外。
目标策略平滑在他们的 MARL 设置中未显示出明显优势。
对于去中心化机器人控制（Ant-v2 split），MATD3 优于 MADDPG 和独立学习者，展示了对高维任务的可扩展性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。