[论文解读] MO-MIX: Multi-Objective Multi-Agent Cooperative Decision-Making With Deep Reinforcement Learning
MO-MIX 将有条件的代理网络与多目标混合网络结合,在集中训练/分散执行框架中解决多目标多代理强化学习并近似 Pareto 集,同时提供探索引导以提高解的均匀性。
Deep reinforcement learning (RL) has been applied extensively to solve complex decision-making problems. In many real-world scenarios, tasks often have several conflicting objectives and may require multiple agents to cooperate, which are the multi-objective multi-agent decision-making problems. However, only few works have been conducted on this intersection. Existing approaches are limited to separate fields and can only handle multi-agent decision-making with a single objective, or multi-objective decision-making with a single agent. In this paper, we propose MO-MIX to solve the multi-objective multi-agent reinforcement learning (MOMARL) problem. Our approach is based on the centralized training with decentralized execution (CTDE) framework. A weight vector representing preference over the objectives is fed into the decentralized agent network as a condition for local action-value function estimation, while a mixing network with parallel architecture is used to estimate the joint action-value function. In addition, an exploration guide approach is applied to improve the uniformity of the final non-dominated solutions. Experiments demonstrate that the proposed method can effectively solve the multi-objective multi-agent cooperative decision-making problem and generate an approximation of the Pareto set. Our approach not only significantly outperforms the baseline method in all four kinds of evaluation metrics, but also requires less computational cost.
研究动机与目标
- 解决目标彼此冲突且多智能体协作的多目标多代理决策问题(MOMARL)的挑战。
- 提出 MO-MIX,以单一模型学习能够适应不同目标偏好并近似 Pareto 边界的策略。
- 实现集中训练与分散执行,以应对 MARL 中的非平稳性、部分观察性和信用分配问题。
- 引入探索引导以提升 Pareto 集的分布均匀性与质量。
- 在多智能体环境中将 MO-MIX 与基线进行对比评估,并通过多项指标分析性能。
提出的方法
- 引入条件化代理网络(CAN),其中每个代理通过 GRU 对观察历史以及偏好向量 ω 条件化地估计向量 Q 函数。
- 引入多目标混合网络(MOMN),为每个目标设置并行轨道,使用超网络产生单调的混合权重和偏置,得到 Qtot 同时保持单调性。
- 与 CAN 输入共享偏好向量 ω,以使学习能够在不同目标偏好下产生多种非支配策略。
- 通过 CTDE 进行训练,使用联合行动值(Qtot)和集中评判者(MOMN),执行阶段代理独立选择动作(ω 条件的 CAN 的 Q)。
- 提出探索引导,将偏好空间分区并进行自适应采样以改善非支配解的分布,在周期性地更新非支配集。
- 使用多种辅助偏好来定义 TD 目标以稳定学习并鼓励更密集的 Pareto 近似(包络值更新)。
- 给出一个 MO-MIX 算法,交替进行交互(使用 ε-贪婪策略的数据收集)与更新(基于回放缓冲区和目标网络的批量学习)。
- 将该方法落地于多目标 Dec-POMDP 形式化框架,并强制单调性:∂Qt ot/∂Q^i ≥ 0,确保在目标加权和下仍保持独立行动选择的最优性。
实验结果
研究问题
- RQ1MO-MIX 是否能够生成密集的高质量非支配策略集合,以近似 MOMARL 问题的 Pareto 边界?
- RQ2在 Pareto 质量、覆盖度和计算效率等多项指标上,MO-MIX 相较于基于 QMIX 的外层基准在多大程度上具有优势?
- RQ3探索引导是否提升最终 Pareto 集在不同偏好下的均匀性与覆盖率?
- RQ4集中训练/分散执行框架在存在多目标的多智能体环境中,是否能有效解决非平稳性与信用分配问题?
主要发现
- MO-MIX 生成了更高质量的非支配解集合,并提供了密集的 Pareto 集近似。
- MO-MIX 在实验使用的四项评估指标上优于基于 QMIX 的基线。
- 与基线相比,MO-MIX 在计算成本方面显著降低。
- 该结构通过对偏好向量的条件化实现了在单一模型中学习多种策略。
- 探索引导通过针对目标空间中代表性不足的区域,提升最终 Pareto 集的分布均匀性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。