QUICK REVIEW

[論文レビュー] Evolutionary Reinforcement Learning for Sample-Efficient Multiagent Coordination

Shauharda Khadka, Somdeb Majumdar|arXiv (Cornell University)|Jun 18, 2019

Reinforcement Learning in Robotics参考文献 37被引用数 26

ひとこと要約

本稿では、ニューロエボリューションによるチームベースのスパarsity報酬最適化と、ポリシー勾配を用いたエージェント固有の密集報酬学習を分離するハイブリッドフレームワーク、マルチエージェント進化強化学習（MERL）を提案する。2つの最適化プロセス間で共有リプレイバッファを介して定期的にポリシーを転送することで、手動の報酬形状付けを必要とせず、サンプル効率性と協調性の両面で、MADDPGなどの最先端手法を凌駕する性能を達成した。

ABSTRACT

Many cooperative multiagent reinforcement learning environments provide agents with a sparse team-based reward, as well as a dense agent-specific reward that incentivizes learning basic skills. Training policies solely on the team-based reward is often difficult due to its sparsity. Furthermore, relying solely on the agent-specific reward is sub-optimal because it usually does not capture the team coordination objective. A common approach is to use reward shaping to construct a proxy reward by combining the individual rewards. However, this requires manual tuning for each environment. We introduce Multiagent Evolutionary Reinforcement Learning (MERL), a split-level training platform that handles the two objectives separately through two optimization processes. An evolutionary algorithm maximizes the sparse team-based objective through neuroevolution on a population of teams. Concurrently, a gradient-based optimizer trains policies to only maximize the dense agent-specific rewards. The gradient-based policies are periodically added to the evolutionary population as a way of information transfer between the two optimization processes. This enables the evolutionary algorithm to use skills learned via the agent-specific rewards toward optimizing the global objective. Results demonstrate that MERL significantly outperforms state-of-the-art methods, such as MADDPG, on a number of difficult coordination benchmarks.

研究の動機と目的

スパarsityなチームベース報酬に起因するサンプル非効率なトレーニングの課題に対処すること。
単一の密集報酬に依存する手法の限界を克服し、チーム協調の目的を捉えきれないこと。
ドメインの専門知識を要する手動の報酬形状付けやスカラー化の必要性を排除すること。これらは元のMDPを歪めることのリスクを伴う。
勾配ベースと勾配フリーの最適化プロセス間で効果的な情報伝達を可能にし、明示的な報酬結合なしに協調性を向上させること。
既存の手法が失敗するような複雑な協調タスクにスケーリング可能な汎用的MARLフレームワークを開発すること。

提案手法

勾配フリーの進化的アルゴリズム（ニューロエボリューション）がスパarsityなチームベース報酬を最適化する2段階のトレーニングフレームワークを採用する。
TD3ベースの勾配ベースのポリシー勾配法（例：TD3ベース）を用いて、同時にエージェント固有の密集報酬を最大化する。
学習済みのポリシー勾配を進化集団に定期的に移行させ、学習済みの基本的スキルを転送する。
2つの最適化プロセス間で共有リプレイバッファを維持し、情報共有を促進し、サンプル効率性を向上させる。
移行の有効性を評価するための条件付き選択メカニズムを適用し、有益なポリシーのみを進化集団に保持する。
進化プロセスがチーム協調を進化させつつ、ポリシー勾配から事前に学習されたスキルを活用する二段階最適化ループを採用する。

実験結果

リサーチクエスチョン

RQ1ニューロエボリューションとポリシー勾配を統合したハイブリッド最適化フレームワークは、報酬形状付けを伴わず、協調的MARLにおけるサンプル効率性を向上させることができるか？
RQ2勾配ベースのポリシー学習者から進化集団への情報伝達は、チーム協調性の向上にどの程度効果的か？
RQ3MERLは、スパarsityなチーム報酬と密集報酬を併存させる環境において、MADDPGなどの最先端MARL手法を凌駆するか？
RQ4MERLは、既存の手法が学習に失敗するような、ますます複雑化する協調タスクにスケーリング可能か？
RQ5条件付き移行は、進化的選択プロセスおよび全体のパフォーマンスにどのような影響を与えるか？

主な発見

MERLは、Keep-Away、Predator-Prey、Physical Deceptionを含むすべてのテストされた協調ベンチマークで、MADDPGおよびそのTD3強化版を顕著に上回った。
Keep-Away環境では、MERLの進化的アルゴリズムがすべてのベースラインを上回ったが、ポリシー勾配法は困難に陥った。これはMERLのスパarsity報酬に対する頑健性を示している。
Predator-Preyタスクにおける条件付き選択率は、常に0.47のベースラインを上回っており、移行されたポリシーが頻繁に選択され、進化に有意義に貢献していることを示している。
Physical DeceptionおよびRoverドメインでは、移行されたポリシーが初期段階で強い利点を提供したが、時間経過とともにその影響は薄れた。これは、集団のダイナミクスに応じて進化する適応的情報伝達を示している。
MERLは報酬形状付けや手動チューニングを一切行わず、多様なマルチエージェント協調タスクにわたる一般化能力を示した。
フレームワークは、MADDPGおよびその変種が完全に学習に失敗するような、協調の複雑さが増す環境においても滑らかにスケーリングでき、MERLのサンプル効率性と頑健性を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。