QUICK REVIEW

[論文レビュー] Q-Learning in enormous action spaces via amortized approximate maximization

Tom Van de Wiele, David Warde-Farley|arXiv (Cornell University)|Jan 22, 2020

Reinforcement Learning in Robotics参考文献 39被引用数 30

ひとこと要約

Amortized Q-learning (AQL) を導入し、Q-learning での正確な行動最大化を、提案分布を学習して小さな行動集合をサンプルする方法に置換する。これにより、離散・連続・ハイブリッドな行動空間でスケーラブルな学習が可能になる。

ABSTRACT

Applying Q-learning to high-dimensional or continuous action spaces can be difficult due to the required maximization over the set of possible actions. Motivated by techniques from amortized inference, we replace the expensive maximization over all actions with a maximization over a small subset of possible actions sampled from a learned proposal distribution. The resulting approach, which we dub Amortized Q-learning (AQL), is able to handle discrete, continuous, or hybrid action spaces while maintaining the benefits of Q-learning. Our experiments on continuous control tasks with up to 21 dimensional actions show that AQL outperforms D3PG (Barth-Maron et al, 2018) and QT-Opt (Kalashnikov et al, 2018). Experiments on structured discrete action spaces demonstrate that AQL can efficiently learn good policies in spaces with thousands of discrete actions.

研究の動機と目的

高次元または連続的な行動空間で厳密な最大化が困難な環境において Q-learning を動機づける。
提案分布を学習して Q-learning のアップデートのための候補行動をサンプルする amortized アプローチを提案する。
AQL が離散・連続・ハイブリッドの行動空間を扱いながら Q-learning の利点を保持することを示す。
連続制御と大規模離散行動タスクで、AQL が強力なベースラインを凌駕するという実証的証拠を示す。

提案手法

行動空間全体の厳密最大化を、学習された提案分布 μ(a|s;θμ) からのサンプル集合の最大化に置換する。
確率的探索 procedure によって見つかった行動から教師付き学習で μ を予測する第二のネットワークを訓練し、探索を維持するための正則化を適用する。
通常の Q-learning と同様にサンプルされた μ からの最大化を用いた Q-function の損失を定義するが、全ての行動の代わりに μ からのサンプル行動の最大を用いる。
均等サンプルと μ からのサンプルの混合によって見つかった高い Q 値を持つ行動の尤度を高めるよう、探索を促すエントロピー項を追加して μ を教師あり学習で更新する。
自動回帰的提案を用いてサブアクション間の依存関係をモデル化し、多次元の行動空間の取り扱いを可能にする。
μ の形を調整することで AQL を連続、離散、ハイブリッドの行動空間に適用する（離散化、ガウス分布、カテゴリカルなど）。

実験結果

リサーチクエスチョン

RQ1高次元の行動空間で行動選択を amortize して Q-learning の性能を最大化できるか？
RQ2AQL は連続制御タスクで強力なベースライン（D3PG、QT-Opt、IMPALA）と比較してどう動作するか？
RQ3AQL は大規模な離散行動空間と構造化された行動集合へスケールできるか？
RQ4提案分布の正確さと探索が学習効率に与える影響は？

主な発見

AQL は DeepMind Control Suite の連続制御タスクで D3PG と QT-Opt を上回る。
AQL は千を超える行動を持つ DeepMind Lab タスクで大規模離散行動空間で効果的なポリシーを学習する。
離散化された AQL および決定論的ポリシーのバリアントは、高次元の行動空間で Uniform Q-learning および QT-Opt を上回る。
DeepMind Lab の大規模行動セット（3528 アクション）では、AQL は最終性能で最高を達成し、大規模セットでの厳密な Q-learning よりも学習効率が良く、行動選択の確率的性質が有益である。
Control-suite の実験では、連続実装の AQL は低〜中次元で同等の性能を示すが、非常に高次元タスクでは劣る場合がある。一方、離散化された AQL は全体的に強力。
AQL は様々な行動空間タイプを扱うための stochastic actor-critic 手法の柔軟でオフポリシーな代替手段を提供し、重要性サンプリング補正を必要としない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。