QUICK REVIEW

[論文レビュー] Emergent Complexity via Multi-Agent Competition

Trapit Bansal, Jakub Pachocki|arXiv (Cornell University)|Oct 10, 2017

Reinforcement Learning in Robotics参考文献 31被引用数 146

ひとこと要約

本論文は、競合的なマルチエージェント環境における自己対戦が、探索カリキュラムと対戦相手のサンプリング戦略を備えた分散PPOトレーニングフレームワークを介して、単純な3D物理タスクにおいて非常に高度な挙動を生み出すことを示す。

ABSTRACT

Reinforcement learning algorithms can train agents that solve problems in complex, interesting environments. Normally, the complexity of the trained agent is closely related to the complexity of the environment. This suggests that a highly capable agent requires a complex environment for training. In this paper, we point out that a competitive multi-agent environment trained with self-play can produce behaviors that are far more complex than the environment itself. We also point out that such environments come with a natural curriculum, because for any skill level, an environment full of agents of this level will have the right level of difficulty. This work introduces several competitive multi-agent environments where agents compete in a 3D world with simulated physics. The trained agents learn a wide variety of complex and interesting skills, even though the environment themselves are relatively simple. The skills include behaviors such as running, blocking, ducking, tackling, fooling opponents, kicking, and defending using both arms and legs. A highlight of the learned behaviors can be found here: https://goo.gl/eR7fbX

研究の動機と目的

環境自体を超える複雑な挙動を競合的なマルチエージェント自己対戦が生成し得る理由を動機づける。
単純なルールと物理を持つ4つの競合的な3D環境を紹介する。
同程度のスキルを持つ対戦相手に対して訓練することで自然なカリキュラムが現れることを示す。
探索カリキュラムが疎な報酬の下での学習を促進することを示す。

提案手法

複数GPUにわたる大規模ロールアウトを伴う分散型の分散学習設定で、Proximal Policy Optimization (PPO) を用いる。
4つのタスクで2つの3Dエージェント体（アントとヒューマノイド）を用い、Run to Goal, You Shall Not Pass, Sumo, Kick and Defend の4つのタスクを実施する。
訓練を通じて密な探索報酬を徐々にゼロへ減衰させることで探索カリキュラムを組み込む。
自己対戦トレーニングを安定化させ、急速な不均衡を避けるためにランダムな過去対戦相手のサンプリングを採用する。
必要に応じてクリップ付きPPO目的関数とGAEを用い、非対称ゲームには別々の方策を訓練する。

実験結果

リサーチクエスチョン

RQ1競合的なマルチエージェント環境における自己対戦は、環境そのものの複雑さを超えた出現的で複雑な挙動を生み出せるのか？
RQ2探索カリキュラムは学習効率を改善し、疎報酬下で非自明な運動スキルの発見を可能にするのか？
RQ3競合的な3Dタスクにおいて、どのような訓練戦略（例：対戦相手サンプリング、ランダム化のカリキュラム）が頑健なポリシーを生み出すのか？
RQ4学習済みポリシーは非エピソード的条件や撹乱条件へどのように移行するのか（ロバスト性テスト）？

主な発見

競合的なマルチエージェント訓練は、ブロック、回避、タックル、キック、ディフェンスなど多様な出現的スキルを生み出す。
探索カリキュラムは、疎報酬下での学習に不可欠で、サンプル効率を向上させる。
ランダムにサンプリングされた年長な対戦相手との訓練は学習を安定させ、継続的な改善を促進する。
複数のポリシーをアンサンブルすることは、特にヒューマノイドエージェントにおいて、単一ポリシーの自己対戦より頑健性を高める。
環境パラメータのランダム化カリキュラムは、初期の学習進捗を犠牲にすることなくポリシーの一般化を助ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。