[論文レビュー] Coordinated Exploration via Intrinsic Rewards for Multi-Agent Reinforcement Learning
本論文は、複数エージェント間の探索を調整する intrinsic rewards を導入し、共有リプレイバッファで複数の探索ポリシーを並行学習し、メタポリシーを用いてそれらの中から動的に選択して、希薄な協調タスクにおける外的報酬を最大化する。
Solving tasks with sparse rewards is one of the most important challenges in reinforcement learning. In the single-agent setting, this challenge is addressed by introducing intrinsic rewards that motivate agents to explore unseen regions of their state spaces; however, applying these techniques naively to the multi-agent setting results in agents exploring independently, without any coordination among themselves. Exploration in cooperative multi-agent settings can be accelerated and improved if agents coordinate their exploration. In this paper we introduce a framework for designing intrinsic rewards which consider what other agents have explored such that the agents can coordinate. Then, we develop an approach for learning how to dynamically select between several exploration modalities to maximize extrinsic rewards. Concretely, we formulate the approach as a hierarchical policy where a high-level controller selects among sets of policies trained on diverse intrinsic rewards and the low-level controllers learn the action policies of all agents under these specific rewards. We demonstrate the effectiveness of the proposed approach in cooperative domains with sparse rewards where state-of-the-art methods fail and challenging multi-stage tasks that necessitate changing modes of coordination.
研究の動機と目的
- エージェント間の協調探索を可能にして、希薄報酬の協調型 MARL に対処する。
- 他エージェントの探索領域を考慮した intrinsic reward 関数を提案する。
- サンプル効率のために共有リプレイバッファを用いて、複数の探索ポリシーを並行学習する。
- 外的報酬を最大化するために、探索モードの間で動的に選択するメタポリシーを開発する。
提案手法
- 全エージェントに跨る観測の新規性に依存するマルチエージェント intrinsic rewards を定義する。
- 協調に友好な intrinsic rewards の望ましい性質(座標ごとの単調性と内部指向性)を説明する。
- 異なる intrinsic reward 種類で学習した複数のポリシーを並行に訓練し、共有リプレイバッファとオフポリシー SAC 変種を用いる。
- 外的リターンを最大化するために、異なる intrinsic rewards で訓練されたポリシーの中から高レベルのメタポリシーが選択する階層的な設定を使用する。
- 外的報酬と intrinsic 報酬の両方に対するポリシー勾配と Q 関数ターゲットを定式化し、報酬タイプを跨ぐベースを共有するクロスヘッドアーキテクチャを採用する。
- 報酬タイプを跨いだ探索を維持するためにエントロピーを用いたメタポリシーを訓練する。
実験結果
リサーチクエスチョン
- RQ1多-agent intrinsic rewards による探索の協調が、希薄報酬の協調タスクで性能を向上させるか。
- RQ2メタポリシーは外的報酬を最大化するために多様な探索モダリティ間で効果的に切り替えられるか。
- RQ3適応的で協調的な探索戦略は、固定的または素朴な適応よりもマルチエージェント設定で優れているか。
- RQ4共通リプレイバッファを介してデータを共有することが、複数の intrinsic reward タイプに対するサンプル効率にどう影響するか。
主な発見
- エージェント間で協調する multi-agent intrinsic rewards は、複数のタスクで独立した intrinsic 探索よりも優れていた。
- 適応的手法は、同じサンプル予算を用いて、非適応のオラクル(最良固定報酬タイプ)と同等かそれを上回る。
- 協調戦略を変えるタスクでは、適応手法がすべての固定報酬関数を上回った。
- メタポリシーは探索と活用をバランスさせ、単一の探索タイプへの収束を防ぐ。
- 適応戦略は、協調ニーズが異なるタスク(例:Task 3 および Flip-Task)で利点を示す。
- 本手法は gridworld と VizDoom のドメインの両方で有効である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。