QUICK REVIEW

[論文レビュー] ROMA: Multi-Agent Reinforcement Learning with Emergent Roles

Tonghan Wang, Heng Dong|arXiv (Cornell University)|Mar 18, 2020

Reinforcement Learning in Robotics参考文献 59被引用数 32

ひとこと要約

ROMAは、識別性と専門化正則化を用いて動的な労働分業とStarCraft IIのミクロ管理ベンチマークでの性能向上を可能にする、MARLにおける emergent, role-conditioned policies を導入します。

ABSTRACT

The role concept provides a useful tool to design and understand complex multi-agent systems, which allows agents with a similar role to share similar behaviors. However, existing role-based methods use prior domain knowledge and predefine role structures and behaviors. In contrast, multi-agent reinforcement learning (MARL) provides flexibility and adaptability, but less efficiency in complex tasks. In this paper, we synergize these two paradigms and propose a role-oriented MARL framework (ROMA). In this framework, roles are emergent, and agents with similar roles tend to share their learning and to be specialized on certain sub-tasks. To this end, we construct a stochastic role embedding space by introducing two novel regularizers and conditioning individual policies on roles. Experiments show that our method can learn specialized, dynamic, and identifiable roles, which help our method push forward the state of the art on the StarCraft II micromanagement benchmark. Demonstrative videos are available at https://sites.google.com/view/romarl/.

研究の動機と目的

複雑なタスクにおける学習効率を改善するために、役割概念をMARLと統合する動機づけ。
エージェント間で動的・識別可能・専門化された emergent roles を実現する。
扱いやすい最適化可能性を持つ役割条件付きポリシーのメカニズムを開発する。

提案手法

局所観測に条件づけられた学習可能なガウス分布から各エージェントの役割を引き出す確率的な役割埋め込み空間を導入します。
役割エンコーダを用いて役割パラメータを生成し、役割デコーダ（ハイパーネットワーク）を用いてポリシーパラメータを生成します。
変分相互情報に基づく識別可能な役割オブジェクティブと、変分境界を用いた非類似性モデルを用いる専門化役割オブジェクティブという2つの正則化項を課す。
QMIXスタイルのミキシングネットワークを用いてグローバルな価値を計算する、中央集権的なトレーニングと分散実行を採用します。
TD損失と正則化項を、lambda_Iおよびlambda_Dで重み付けして全体の目的関数を最適化します。
StarCraft IIのマップ上での視覚化とアブレーション分析を通じて、役割の出現と専門化を実証します。

実験結果

リサーチクエスチョン

RQ1学習された役割は変化する環境に動的に適応できますか？
RQ2学習された役割は、類似した役割が類似したポリシーを共有するようなサブタスクの専門化をもたらしますか？
RQ3難易度の高いベンチマークでサブタスクの専門化はMARLの性能を改善しますか？
RQ4トレーニング中に役割はどのように出現・進化し、チームの性能とどう関連しますか？
RQ5非類似性モデルは意味のある軌道ベースの役割差を学習できますか？

主な発見

ROMAはサブタスクでクラスタリングされ、敵の構成やエージェントの健康状態に応じて適応する動的な役割表現を学習します。
専門化正則化項は性能を向上させ、ベースラインよりも労働分業をより効率的に導きます。
ROMAは、ヘテロジニアスおよびホモジニアスなエージェント設定を含む複数のStarCraft II SMACマップでベースラインを上回ります。
役割埋め込みは、トレーニングを通じて、編成形成や保護的な機動といった解釈可能なサブタスクを明らかにします。
非類似性モデル d_phi はエージェント間の軌道ベースの差異を捉え、高い非類似性を異なるユニットタイプと整合させます。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。