QUICK REVIEW

[論文レビュー] Hierarchical Deep Multiagent Reinforcement Learning with Temporal Abstraction

Hongyao Tang, Jianye Hao|arXiv (Cornell University)|Sep 25, 2018

Reinforcement Learning in Robotics参考文献 38被引用数 33

ひとこと要約

本稿では、協調的マルチエージェント環境におけるスパarselyな報酬と遅延報酬の課題を解決するため、時間的抽象化を用いた階層的ディープマルチエージェント強化学習を提案する。タスクを高レベルの協調と低レベルのスキルに分解し、新規の経験リプレイ機構（ACER）を導入することで、時間スケールにわたる効率的な学習が可能となり、Fever Basketball Defense や Multiagent Trash Collection といったスパース報酬ドメインにおいて、標準的な MARL 手法を著しく上回る性能を達成した。

ABSTRACT

Multiagent reinforcement learning (MARL) is commonly considered to suffer from non-stationary environments and exponentially increasing policy space. It would be even more challenging when rewards are sparse and delayed over long trajectories. In this paper, we study hierarchical deep MARL in cooperative multiagent problems with sparse and delayed reward. With temporal abstraction, we decompose the problem into a hierarchy of different time scales and investigate how agents can learn high-level coordination based on the independent skills learned at the low level. Three hierarchical deep MARL architectures are proposed to learn hierarchical policies under different MARL paradigms. Besides, we propose a new experience replay mechanism to alleviate the issue of the sparse transitions at the high level of abstraction and the non-stationarity of multiagent learning. We empirically demonstrate the effectiveness of our approaches in two domains with extremely sparse feedback: (1) a variety of Multiagent Trash Collection tasks, and (2) a challenging online mobile game, i.e., Fever Basketball Defense.

研究の動機と目的

協調的マルチエージェント強化学習（MARL）におけるスパースかつ遅延する報酬の課題に対処し、効果的な方策学習を促進すること。
ディープラーニング環境下での時間的抽象化を用いた階層的 MARL を探求し、複数の時間スケールでの学習を可能にすること。
新規の経験リプレイ機構により、マルチエージェント学習における非定常性とスパースな高レベル遷移の課題を軽減すること。
階層的アーキテクチャが、現実世界に類似した環境下で、異なる MARL パラダイムにわたって有効であることを実証すること。

提案手法

異なる MARL パラダイムに適した3つの階層的ディープ MARL アーキテクチャを提案：h-IL（階層的インディペンデントラーナー）、h-Comm（階層的コミュニケーションネットワーク）、h-Qmix（階層的 Qmix）。
二段階の階層構造を設計：低レベル方策がプリミティブスキルを学習し、高レベル方策が部分的目標と部分的遷移に基づいて協調を実現する。
高レベル遷移に部分遷移を統合し、同時にリプレイを可能にする「拡張型並列経験リプレイ（ACER）」を設計することで、学習の安定化を図った。
h-Qmix および h-Comm では集中学習・分散実行（CTDE）を採用したが、h-IL は高レベル協調を伴う独立学習を採用した。
時間的抽象化を活用し、長時間スケールのタスクを管理可能な部分タスクに分解することで、報酬帰属と探索の難易度を低減した。
h-Qmix では連携行動価値関数、h-Comm では明示的通信を用いて、高レベルでの協調性を向上させた。

実験結果

リサーチクエスチョン

RQ1時間的抽象化を用いた階層的ディープ MARL は、報酬がスパースかつ遅延する環境でも、協調的方策を効果的に学習できるか？
RQ2低レベルスキルと高レベル協調の複数時間スケールでの学習は、MARL におけるサンプル効率とパフォーマンスをどのように向上させるか？
RQ3提案された ACER 機構は、スパースな高レベル遷移とマルチエージェント学習における非定常性の課題をどの程度軽減できるか？
RQ4独立型、通信ベース型、価値ベース型の異なる MARL パラダイムが、スパース報酬環境下で階層的抽象化を適用した際に、それぞれどのように性能を発揮するか？

主な発見

h-IL は IL-DQN や Low-Level-Only を上回り、スパース報酬環境における時間的抽象化を用いた階層的学習の価値を示した。
h-Comm と h-Qmix は h-IL を上回る性能を達成し、Fever Basketball Defense では h-Comm が 36% のブロックショットレート、h-Qmix が 37% のブロックショットレートを記録した。
ACER は高レベル方策学習を顕著に改善した：h-IL-ACER ではブロックショットレートが 0.27 から 0.36 に上昇し、ベースラインの h-IL を上回り、h-Comm の性能に近づいた。
h-Comm と h-Qmix は異なる守備戦術を採用しており、それぞれ連携守備（高いブロック率）と1対1守備（より良いカバー範囲）を実現しており、性能と戦略の差異から裏付けられた。
非同期終了設定では 3–5% のパフォーマンス低下が生じ、非同期階層的 MARL における非定常性の課題を示した。
ACER は h-IL に対して h-Comm よりもより顕著な改善効果を示しており、独立学習の安定化には効果的であるが、通信型や価値ベースアーキテクチャにはそれほど効果的でない可能性を示唆した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。