QUICK REVIEW

[論文レビュー] Macro-Action-Based Deep Multi-Agent Reinforcement Learning

Yuchen Xiao, Joshua Hoffman|arXiv (Cornell University)|Apr 18, 2020

Reinforcement Learning in Robotics被引用数 2

ひとこと要約

本稿では、マルチエージェント強化学習における非協力的で中心的なマクロアクション価値関数の学習のための2つのDQNベースの手法を提案し、高水準で非同期的な行動の効率的学習を可能にする、新しいマクロアクション軌道リプレイバッファを導入している。この手法は、ベンチマークおよび大規模なドメインにおいて、原始的アクション手法よりも優れた性能とスケーラビリティを示している。

ABSTRACT

In real-world multi-robot systems, performing high-quality, collaborative behaviors requires robots to asynchronously reason about high-level action selection at varying time durations. Macro-Action Decentralized Partially Observable Markov Decision Processes (MacDec-POMDPs) provide a general framework for asynchronous decision making under uncertainty in fully cooperative multi-agent tasks. However, multi-agent deep reinforcement learning methods have only been developed for (synchronous) primitive-action problems. This paper proposes two Deep Q-Network (DQN) based methods for learning decentralized and centralized macro-action-value functions with novel macro-action trajectory replay buffers introduced for each case. Evaluations on benchmark problems and a larger domain demonstrate the advantage of learning with macro-actions over primitive-actions and the scalability of our approaches.

研究の動機と目的

不確実性下での非同期的で高水準の意思決定の課題に対処すること。
原始的アクションからマクロアクションへの深層マルチエージェント強化学習の拡張を図り、より効率的でスケーラブルな学習を可能にすること。
深層Qネットワークを用いた分散型および集中型マクロアクション価値関数学習手法の開発。
マルチエージェントのシーケンスにおける時間的および階層的構造を保持する、専用のマクロアクション軌道リプレイバッファの導入。
提案手法をベンチマークおよび大規模ドメインで評価し、原始的アクションベースラインを上回ることの優位性を示すこと。

提案手法

本稿では、高水準の行動とその結果のシーケンスを格納するマクロアクション軌道リプレイバッファを導入し、エージェント間の時間的依存性を保持している。
分散型学習では、マクロアクションリプレイバッファを用いて各エージェントごとに独立にDQNベースのマクロアクション価値関数を訓練している。
集中型学習では、同じリプレイバッファを用いて集中型のクライアントネットワークが共同マクロアクション価値関数を学習し、ポリシー最適化を支援している。
マクロアクションは時間的に拡張された高水準の行動として定義されており、エージェントがより長い時間スパンで推論できるようにしている。
リプレイバッファの設計により、全マクロアクション軌道の保存を可能にし、オフポリシー学習を支援することで、データ効率を向上させている。
フレームワークは離散的および連続的マクロアクションの両方に対応しており、タスク表現の柔軟性を提供している。

実験結果

リサーチクエスチョン

RQ1マクロアクションは、原始的アクションと比較して、協調的マルチエージェント強化学習におけるサンプル効率と性能を向上させるか？
RQ2提案されたマクロアクション軌道リプレイバッファは、マルチエージェント設定における学習安定性と収束性をどのように向上させるか？
RQ3分散型および集中型マクロアクション価値学習は、より大きなマルチエージェントドメインにどの程度スケーリング可能か？
RQ4マクロアクションによる学習は、複雑なタスクにおいてより一貫性があり、質の高い協調行動をもたらすか？
RQ5標準的なDQNベースのアプローチ（原始的アクションを使用）と比較して、提案手法の性能とスケーラビリティはどの程度か？

主な発見

提案されたマクロアクションベースの手法は、ベンチマーク問題において、累積報酬とタスク完了率の両面で原始的アクションベースラインを上回っている。
マクロアクション軌道リプレイバッファの使用により、分散型および集中型学習の両設定において、収束が速くなり、データ効率が向上している。
集中型マクロアクション学習アプローチは、特に複雑な協調タスクにおいて、分散型バージョンよりも高いパフォーマンスを達成している。
これらの手法は、より大きなドメインに対しても効果的にスケーリングでき、非同期意思決定を必要とする実世界のマルチロボットシステムへの適用可能性を示している。
マクロアクションによる学習は、原始的アクションポリシーと比較して、より一貫性があり、時間的に構造化された行動をもたらしている。
フレームワークにより、原始的アクション手法では困難に発見されにくい、高水準で長時間スパンの協調戦略をエージェントが学習可能になっている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。