[论文解读] Deep Decentralized Multi-task Multi-Agent Reinforcement Learning under Partial Observability
本文在部分可观测条件下形式化多任务多智能体强化学习(MT-MARL),并提出一个两阶段的去中心化方法:带有并发经验重放和滞后学习率的单任务学习的 DRQN,以及随后将其蒸馏为统一的多任务策略。它展示了在没有显式任务身份的情况下的鲁棒性与协同能力。
Many real-world tasks involve multiple agents with partial observability and limited communication. Learning is challenging in these settings due to local viewpoints of agents, which perceive the world as non-stationary due to concurrently-exploring teammates. Approaches that learn specialized policies for individual tasks face problems when applied to the real world: not only do agents have to learn and store distinct policies for each task, but in practice identities of tasks are often non-observable, making these approaches inapplicable. This paper formalizes and addresses the problem of multi-task multi-agent reinforcement learning under partial observability. We introduce a decentralized single-task learning approach that is robust to concurrent interactions of teammates, and present an approach for distilling single-task policies into a unified policy that performs well across multiple related tasks, without explicit provision of task identity.
研究动机与目标
- 在部分可观测性下,形式化具去中心化、独立学习者的 MT-MARL。
- 开发对来自队友的非平稳性鲁棒的稳定单任务 MARL 方法。
- 引入 Concurrent Experience Replay Trajectories (CERTs),用于 MARL 中的同步经验共享。
- 将专门化的单任务策略蒸馏为统一的多任务策略,而无需显式任务身份。
- 在跨越不同任务设置的多智能体目标捕获领域中展示有效性。
提出的方法
- 使用去中心化的滞后深度递归 Q-网络(Dec-HDRQNs)在部分可观测的 MARL 中学习 Q 值,采用滞后学习率。
- 引入 Concurrent Experience Replay Trajectories (CERTs),在代理之间同步整集体验以实现稳定学习。
- 用序列迹和向后时间步抽样来训练 DRQN,以在部分可观测性下稳定学习。
- 第 II 阶段通过对 Q 值进行带温度参数的 KL 散度损失的有监督回归,将多个任务特定的 DRQN 蒸馏为一个蒸馏后的 DRQN。
- 在蒸馏期间,使用并发 CERTs 存储回归经验,但训练是有监督的,而不是并发采样。
- 将 MT-MARL 问题表述为来自共享 Dec-POMDP 域的任务,在训练期间将任务 ID 提供给学习者,但在执行时不提供。
实验结果
研究问题
- RQ1在部分可观测性下,去中心化、独立学习者在没有显式任务身份的情况下,能否在 MT-MARL 中实现协同策略?
- RQ2滞后学习是否能在来自队友的非平稳性影响下提高 Dec-POMDP MARL 的稳定性与协作性?
- RQ3是否可以将单任务的专业化策略蒸馏成一个在相关任务上具泛化能力的统一多任务策略?
- RQ4同步经验样本(CERTs)在多智能体学习中的样本效率与稳定性中扮演何种作用?
- RQ5在具有不同任务配置的多智能体目标捕获域上,所提出的 MT-MARL 方法的性能如何?
主要发现
- Dec-HDRQN 在多智能体部分可观测性中实现稳定协作,而非滞后方法则失败。
- CERTs 提供同步的经验,提升去中心化 MARL 的样本效率和稳定性。
- 蒸馏后的多任务 DRQN 与专门化任务的表现接近,在执行时无需显式任务 ID 即可实现统一策略。
- 阶段 I 的专业化结合阶段 II 的蒸馏,在不同网格大小和任务分配下实现稳健的 MT-MARL 性能。
- 滞后学习率有助于缓解来自队友探索所造成的负迁移和不稳定。
- 与完全去中心化的滞后学习相比,集中式的参数共享的跨智能体训练未能提高性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。