QUICK REVIEW

[論文レビュー] Learning Policy Representations in Multiagent Systems

Aditya Grover, Maruan Al-Shedivat|arXiv (Cornell University)|Jun 17, 2018

Reinforcement Learning in Robotics参考文献 19被引用数 43

ひとこと要約

少数の相互作用から連続的なポリシー埋め込みを学習する教師なしのエンコーダ-デコーダフレームワークを提案し、クラスタリング、成果予測、そしてポリシー最適化などの下流タスクを競合的および協調的なMASの両方で可能にする。

ABSTRACT

Modeling agent behavior is central to understanding the emergence of complex phenomena in multiagent systems. Prior work in agent modeling has largely been task-specific and driven by hand-engineering domain-specific prior knowledge. We propose a general learning framework for modeling agent behavior in any multiagent system using only a handful of interaction data. Our framework casts agent modeling as a representation learning problem. Consequently, we construct a novel objective inspired by imitation learning and agent identification and design an algorithm for unsupervised learning of representations of agent policies. We demonstrate empirically the utility of the proposed framework in (i) a challenging high-dimensional competitive environment for continuous control and (ii) a cooperative environment for communication, on supervised predictive tasks, unsupervised clustering, and policy optimization using deep reinforcement learning.

研究の動機と目的

マルチエージェントシステムにおける限定的な相互作用データから、エージェントポリシーの一般化可能な表現を学習する動機付け。
エージェントの相互作用エピソードの埋め込みを学習するエンコーダ-デコーダフレームワークを開発する。
有用なポリシー表現を学習するために、生成的（模倣学習）と判別的（エージェント識別）目的を組み合わせる。
埋め込みがクラスタリング、成果予測、ポリシー最適化などの下流タスクを競合的および協調的MASの双方で改善することを示す。
エージェント間相互作用グラフを用いて、見たことのないエージェントや相互作用、タスクに対するMAS表現の一般化フレームワークを提供する。

提案手法

相互作用エピソードを埋め込みへ写像する表現関数 f_theta: E -> R^d を定義する。
埋め込みを用いて行動を選択する条件付きポリシーネットワーク pi_{phi,theta} を訓練し、模倣に類似した交差エントロピー損失を最適化する。
埋め込みに基づくトリプレット型の判別損失を導入し、エージェント固有の埋め込みクラスタリングを促進する。
模倣に基づく生成損失とトリプレット型判別損失をハイブリッド目的関数に統合する：Im_loss + lambda * Id_loss (Equation 3)。
更新ごとに2つの異なるエピソード（e1, e2）を用いて、片方のエピソードのポリシーをもう一方の埋め込みで条件付ける埋め込みを学習する。
RoboSumo（競合）と ParticleWorld（協調的コミュニケーション）で実験を実施し、クラスタリング、成果予測、およびポリシー最適化のための埋め込みの有用性を評価する。
見たことのないエージェントや相互作用、タスクに対する弱・強・一般化を研究するために agent-interaction graphs を用いて一般化を表現する。

実験結果

リサーチクエスチョン

RQ1マルチエージェントシステムにおける限定的な相互作用データから、学習した教師なし埋め込みは未知のエージェントや相互作用へ一般化できるか？
RQ2生成的（模倣）と判別的（エージェント識別）目的は、より有用なポリシー表現を作るために補完し合うか？
RQ3学習した埋め込みは、ポリシーのクラスタリング、成果予測、そして新たな対戦相手やリスナーに対するポリシー学習の改善などの下流タスクに有効か？
RQ4埋め込みで条件付けられたポリシーは、競合的および協調的なMAS設定の双方で、より速く適応し、より良く一般化できるか？

主な発見

環境	方法	IICR (W)	IICR (S)	Acc (W)	Acc (S)
RoboSumo	Emb-Im	0.24	0.23	0.71	0.60
RoboSumo	Emb-Id	0.25	0.27	0.67	0.56
RoboSumo	Emb-Hyb	0.22	0.21	0.73	0.56

Emb-Hyb (ハイブリッド Im+Id) は、RoboSumo において Im または Id 単独よりも、クラスタリング信号（内部クラス間比の低下）と競争的成果予測で一般的に優れる。
Embeddings はポリシー最適化を改善する能力を持ち、PPOベースの学習中に unseen opponents への一般化として Emb-Hyb が最良を示す。
ParticleWorld では、埋め込みはリスナーとスピーカーの協調を促進し、オフライン埋め込みを用いた場合に特に平均報酬の改善をもたらす。
オンラインで学習された埋め込みはベースラインを上回ることがあるが、ポリシー最適化タスクにおいてはオフライン埋め込みの方がより強い一般化を提供する傾向がある。
このフレームワークは、埋め込み空間におけるエージェントポリシーの質的な分離を示す強い証拠を提供し、エピソード間でエージェント固有の構造を浮かび上がらせる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。