[論文レビュー] MO-MIX: Multi-Objective Multi-Agent Cooperative Decision-Making With Deep Reinforcement Learning
MO-MIXは条件付きエージェントネットワークと多目的混合ネットワークを中央化学習/分散実行フレームワーク内で結合し、多目的多エージェント強化学習の解決とPareto集合の近似を行い、解の均一性を向上させる探索ガイドを提供する。
Deep reinforcement learning (RL) has been applied extensively to solve complex decision-making problems. In many real-world scenarios, tasks often have several conflicting objectives and may require multiple agents to cooperate, which are the multi-objective multi-agent decision-making problems. However, only few works have been conducted on this intersection. Existing approaches are limited to separate fields and can only handle multi-agent decision-making with a single objective, or multi-objective decision-making with a single agent. In this paper, we propose MO-MIX to solve the multi-objective multi-agent reinforcement learning (MOMARL) problem. Our approach is based on the centralized training with decentralized execution (CTDE) framework. A weight vector representing preference over the objectives is fed into the decentralized agent network as a condition for local action-value function estimation, while a mixing network with parallel architecture is used to estimate the joint action-value function. In addition, an exploration guide approach is applied to improve the uniformity of the final non-dominated solutions. Experiments demonstrate that the proposed method can effectively solve the multi-objective multi-agent cooperative decision-making problem and generate an approximation of the Pareto set. Our approach not only significantly outperforms the baseline method in all four kinds of evaluation metrics, but also requires less computational cost.
研究の動機と目的
- 目的が衝突し、複数のエージェントが協調する MOMARL の課題を解決する。
- 単一のモデル内で異なる目的好みに適応しParetoフロンティアを近似するポリシーを学習する MO-MIX を提案する。
- 非定常性、部分観測、クレジット割り当てを扱うため中央集約型訓練と分散実行を可能にする。
- Pareto集合の均一性と品質を向上させる探索ガイドを組み込む。
- 複数のエージェント環境で基準法と比較し、複数指標で性能を分析する。
提案手法
- 各エージェントが好みベクトル ω と観測履歴をGRUで条件付けたベクトルQ関数を推定する条件付きエージェントネットワーク(CAN)を導入する。
- 各目的ごとに並列トラックを持つ多目的混合ネットワーク(MOMN)を導入し、モノトーンな混合重みとバイアスを生成するハイパーネットワークを用いてQt otを得つつモノトニシティを保つ。
- 複数の非支配ポリシーを学習できるようCAN入力と好みベクトルωを共有する。
- Qtotを共同作用価値として訓練し中央のクリティック(MOMN)を使用しつつ、実行時にはエージェントが独立して行動を選択する(ω条件付きQを用いるCAN)。
- 非支配解の分布を改善するために好み空間を分割し適応サンプリングを行う探索ガイドを採用し、非支配集合を定期的に更新する。
- 学習を安定化させ密度の高いPareto近似を促進するため複数の補助的好みでTDターゲットを定義する(エンベロープ値更新)。
- MO-MIXを実行するアルゴリズムを提供し、ε-グリーディ方策によるデータ収集とバッチ学習・リプレイバッファ・ターゲットネットワークを用いた更新を交互に行う。
- マルチ目的Dec-POMDP形式に基づきモノトニシティを担保する:∂Qtot/∂Q^i ≥ 0。これにより重み付き和の下で別個の行動選択が最適なまま維持される。
実験結果
リサーチクエスチョン
- RQ1MO-MIXはMOMARL問題のParetoフロンティアを近似する高品質な非支配ポリシーの密な集合を生成できるか。
- RQ2MO-MIXはQMIXを外部ループの基準とした場合、Pareto品質・カバレッジ・計算効率の各指標でどう比較されるか。
- RQ3探索ガイドは最終Pareto集合の均一性とカバレッジを多様な好みで改善するか。
- RQ4中央集約訓練と分散実行の枠組みは複数目的のマルチエージェント環境で非定常性とクレジット割り当てに効果的に対処できるか。
主な発見
- MO-MIXは高品質な非支配集合を生成し、密なPareto集合近似を提供する。
- MO-MIXは実験で用いた4つの評価指標すべてにおいてQMIXベースの基準を上回る。
- MO-MIXは基準よりも大幅に低い計算コストでこれらの利得を達成する。
- このアーキテクチャは好みベクトルを条件付けることで単一モデル内で複数ポリシーを学習可能。
- 探索ガイドは目的空間の過小表現領域を狙うことで最終Pareto集合の分布の均一性を改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。