QUICK REVIEW

[論文レビュー] Multiagent Bidirectionally-Coordinated Nets: Emergence of Human-level Coordination in Learning to Play StarCraft Combat Games

Peng Peng, Ying Wen|arXiv (Cornell University)|Mar 29, 2017

Reinforcement Learning in Robotics参考文献 40被引用数 272

ひとこと要約

BiCNet は双方向再帰的通信と共有アクター-クリティックフレームワークを通じて StarCraft の対戦タスクでスケーラブルなマルチエージェント協調を実現し、デモンストレーションなしで人間レベルの協調を達成する。

ABSTRACT

Many artificial intelligence (AI) applications often require multiple intelligent agents to work in a collaborative effort. Efficient learning for intra-agent communication and coordination is an indispensable step towards general AI. In this paper, we take StarCraft combat game as a case study, where the task is to coordinate multiple agents as a team to defeat their enemies. To maintain a scalable yet effective communication protocol, we introduce a Multiagent Bidirectionally-Coordinated Network (BiCNet ['bIknet]) with a vectorised extension of actor-critic formulation. We show that BiCNet can handle different types of combats with arbitrary numbers of AI agents for both sides. Our analysis demonstrates that without any supervisions such as human demonstrations or labelled data, BiCNet could learn various types of advanced coordination strategies that have been commonly used by experienced game players. In our experiments, we evaluate our approach against multiple baselines under different scenarios; it shows state-of-the-art performance, and possesses potential values for large-scale real-world applications.

研究の動機と目的

複雑でリアルタイムなゲームにおいて、複数のエージェント間で人間に類似した協調を学習する研究を動機づける。
人間のデモンストレーションを必要とせず、任意の数のエージェントを扱えるスケーラブルな通信機構を開発する。
メモリ拡張ネットワークに埋め込まれた双方向通信が、出現的な協調戦略を可能にすることを示す。
さまざまな StarCraft の対戦シナリオにおいて、ベースラインより性能の改善を示す。
現実の大規模マルチエージェント応用におけるBiCNetの潜在能力を示す。）
objective_translated_text_diff_placeholder”:null,
method([
method1）：
method1_textJapanese_placeholder）

提案手法

StarCraft のマイクロマネジメントを、各サイドに同質のエージェントを持つゼロ和確率ゲームとして定式化する。
BiCNetを提案する：相互エージェント通信のための双方向RNNと共有パラメータを用いる双方向に協調するマルチエージェントアクタークリティックネットワーク。
共同方策を学習するための多エージェント決定論的方策勾配フレームワーク（Multiagent Deterministic PG Theorem）を導出する。
個別エージェントの帰属を捉え、スケーラブルなクレジット割り当てを促進するための局所報酬モデリングを導入する。
オフポリシー決定論的アクタークリティック法で学習し、BiCNetを介して伝播される勾配を用いてアクターとクリティックの両方のネットワークを更新する。

実験結果

リサーチクエスチョン

RQ1BiCNet は人間のデモなしに多数のエージェント間でスケーラブルな出現的協調を促進できるか？
RQ2双方向でメモリベースの通信は、既存のベースラインと比較して StarCraft の戦闘タスクにおけるマルチエージェント協調と性能を向上させるか？
RQ3バリアントなチームサイズと異種エージェントタイプを、コンパクトなパラメータ化を維持しつつBiCNetはどのように扱うか？
RQ4エージェントが学習する際に出現する協調戦略は何か、そしてそれらは人間の戦略（例：集中砲火、カバー攻撃）とどう比較されるか？

主な発見

BiCNet は、ルールベースおよびいくつかの深層RLベースラインに対して、複数の StarCraft 対戦シナリオで最先端の性能を達成する。
モデルは、衝突のない移動、攻守の機動、カバー攻撃、協調的な集中砲火など、多様な協調戦略を学習する。
BiCNetはパラメータ共有のため、エージェント数が異なる場合にもスケールし、特にチームサイズが増加するにつれて性能向上が顕著である。
可視化により、高いQ値の状態が戦略的に有利な協調行動に対応していることが示される。
より単純な3エージェントの通信例は、双方向情報共有の効果を示し、加法的タスクにおいて他のベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。