QUICK REVIEW

[論文レビュー] RODE: Learning Roles to Decompose Multi-Agent Tasks

Tonghan Wang, Tarun Gupta|arXiv (Cornell University)|Oct 4, 2020

Reinforcement Learning in Robotics参考文献 98被引用数 60

ひとこと要約

RODE は、行動の効果に基づいてクラスタリングすることにより役割を自動的に発見し、マルチエージェントタスクをより小さく転送可能なサブタスクに分解する二層の学習フレームワークを創出する。

ABSTRACT

Role-based learning holds the promise of achieving scalable multi-agent learning by decomposing complex tasks using roles. However, it is largely unclear how to efficiently discover such a set of roles. To solve this problem, we propose to first decompose joint action spaces into restricted role action spaces by clustering actions according to their effects on the environment and other agents. Learning a role selector based on action effects makes role discovery much easier because it forms a bi-level learning hierarchy -- the role selector searches in a smaller role space and at a lower temporal resolution, while role policies learn in significantly reduced primitive action-observation spaces. We further integrate information about action effects into the role policies to boost learning efficiency and policy generalization. By virtue of these advances, our method (1) outperforms the current state-of-the-art MARL algorithms on 10 of the 14 scenarios that comprise the challenging StarCraft II micromanagement benchmark and (2) achieves rapid transfer to new environments with three times the number of agents. Demonstrative videos are available at https://sites.google.com/view/rode-marl .

研究の動機と目的

役割ベースの分解によるスケーラブルなマルチエージェント学習の動機づけ。
手作りの設計なしに効果的な役割の集合を自動的に発見する。
アクション効果を介して結合行動空間を因数分解することにより学習の複雑さを低減する。
異なる数のエージェントやアクションを持つ環境へ学習済みポリシーを高速に転送できるようにする。

提案手法

前方予測モデルを用いて、観測と報酬に対する行動効果を符号化する行動表現を学習する。
表現空間で行動をクラスタリングして制限された役割の行動空間を形成する。
高レベルで役割セレクタを、制限された行動空間で動作する役割ポリシーを含む二層階層を導入する。
役割表現を行動表現の平均として計算し、役割選択を通知する。
QMIX風ミキシングネットワークで共同報酬を最適化するための役割ポリシーと役割セレクタを学習する。
グローバル報酬を活用し、役割セレクタと役割ポリシーの両方に対してTDロスでエンドツーエンドに訓練する。

実験結果

リサーチクエスチョン

RQ1行動効果ベースの表現は役割ベースの分解のために行動を効果的にクラスタリングできるか？
RQ2役割行動空間を制限することで大規模なマルチエージェント環境における学習効率とポリシー性能は向上するか？
RQ3RODE は異なる数のエージェントやアクションを持つタスクへ学習済みポリシーを転送できるか？
RQ4要素別（行動表現、制限された行動空間、階層学習）の各コンポーネントが全体の性能にどの程度寄与するか？
RQ5RODE は StarCraft II のミクロマネジメントのような難解なマルチエージェントのベンチマークでどの程度性能を発揮するか？

主な発見

RODE は StarCraft II ミクロマネジメントの14マップ中10マップで最先端の性能を達成し、うち9つの hard および super hard マップを含む。
RODE は学習時の環境よりも3倍多いエージェント数の環境への迅速な転移を示す。
行動表現は、敵へ向かう・離れる、同種のユニットを攻撃するなど、機能的な類似性に対応する行動クラスタを効果的に示す。
アブレーション実験は、役割行動空間の制限と行動効果情報の利用がベースラインを上回る利益の鍵であり、完全な行動空間やランダムな制限は同様の利点を生まないことを示す。
RODE の階層設計（役割セレクタと役割ポリシー）は、効果ベースの行動因数化と組み合わせると、スケーラブルな学習フレームワークを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。