QUICK REVIEW

[論文レビュー] BAIL: Best-Action Imitation Learning for Batch Deep Reinforcement Learning

Xinyue Chen, Zijian Zhou|arXiv (Cornell University)|Oct 27, 2019

Reinforcement Learning in Robotics参考文献 45被引用数 31

ひとこと要約

BAILは、データセットのリターンの'上側包絡線'を特定する価値関数を用い、この包絡線からの高パフォーマンス行動を選択し、模倣学習によってポリシーを訓練する、シンプルでありながら高パフォーマンスなバッチ強化学習アルゴリズムを提案する。MuJoCoベンチマークにおいて最先端の性能を達成し、BCQに比べて42%高いリターン、BCに比べて101%高いリターンを達成する一方で、BCQ や BEAR などのQ学習ベースのベースラインに比べて30–50倍速い。

ABSTRACT

There has recently been a surge in research in batch Deep Reinforcement Learning (DRL), which aims for learning a high-performing policy from a given dataset without additional interactions with the environment. We propose a new algorithm, Best-Action Imitation Learning (BAIL), which strives for both simplicity and performance. BAIL learns a V function, uses the V function to select actions it believes to be high-performing, and then uses those actions to train a policy network using imitation learning. For the MuJoCo benchmark, we provide a comprehensive experimental study of BAIL, comparing its performance to four other batch Q-learning and imitation-learning schemes for a large variety of batch datasets. Our experiments show that BAIL's performance is much higher than the other schemes, and is also computationally much faster than the batch Q-learning schemes.

研究の動機と目的

標準的なQ学習アルゴリズムを用いたバッチDRLにおいて、外挿誤差のための性能の悪化と不安定性を解消すること。
BCQ や BEAR のような複雑なQ関数ベースのバッチRL手法に代わる、より単純で速く効果的な代替手法を開発すること。
価値関数を用いて高パフォーマンスな行動を同定し、模倣学習を活用することで、バッチRLにおけるデータ効率とパフォーマンスを向上させること。
概念的に単純なILベースの手法が、多様な非専門家データセットにおいて最先端のQ学習ベースのバッチRLアルゴリズムを上回ることを示すこと。
オンライン相互作用が不可能な安全が求められるシステムにおいて、計算的に効率的で頑健な代替手法を提供すること。

提案手法

BAILはまず、データセット内の各状態に対して達成可能な最高のリターンを表す上側包絡線を推定するためのV関数ニューラルネットワークを訓練する。
次に、モンテカルロリターンがこの上側包絡線に近い状態行動ペアを同定し、それらを高パフォーマンス行動として選択する。
選択された高パフォーマンス行動を用いて、追加の制約や複雑なアーキテクチャを一切用いずに、標準的な行動クラーニング（模倣学習）によりポリシー・ネットワークを訓練する。
V関数は、各状態に対してデータセットで観測された最大リターンを予測するよう、回帰目的関数を用いて訓練される。
BCQ や BEAR で必要な行動空間の制約を排除することで、外挿誤差を回避する。代わりに、データセット内で実際に高パフォーマンスを示した行動のみを用いる。
このパイプライン全体は計算的に効率的であり、反復的Q学習更新や複雑な制約メカニズムが不要なため、BCQ や BEAR に比べて30–50倍速い。

実験結果

リサーチクエスチョン

RQ1BCQ や BEAR のような複雑なQ関数ベースのバッチRLアルゴリズムに比べ、単純な模倣学習アプローチが多様なバッチデータセットで優れた性能を発揮できるか？
RQ2MuJoCo環境における多様な非専門家バッチデータセットにおいて、BAILの性能はBCQ、BEAR、MARWIL、BCと比べてどの程度か？
RQ3データの'上側包絡線'を基準として高パフォーマンス行動を選択することで、単純なリターン順位付けや標準的回帰に基づく選択に比べて、ポリシー性能が向上するか？
RQ4特に学習時間とリソース使用量の観点から、BAILの計算効率はQ学習ベースのバッチRL手法と比べてどの程度か？
RQ5BAILは、非専門家ポリシーからのデータを含む多様なタイプのバッチデータに対して、どの程度一般化できるか？

主な発見

BAILは22のMuJoCo学習バッチ全体でBCQに平均42%高いリターンを達成し、BCに平均101%高いリターンを達成した。
22の学習バッチ中20でBAILが勝利し、多様なデータセットにおいて強力で一貫したパフォーマンスを示した。
BCQ や BEAR に比べ、BAILの学習時間は30–50倍速く、1つのシードあたり1–2時間で学習可能である一方、Q学習ベースのベースラインは12–100時間かかっていた。
実行バッチ（固定ポリシーのデータ）ではヴァニラBCが最も優れていたが、BAILとBCQも同程度の性能を示し、時々BCを上回った。これはBAILがより単純なデータに対しても頑健であることを示している。
上側包絡線アプローチは、上位G個の行動を選択するなど単純な手法や標準的V関数回帰に比べ、顕著に優れた性能を発揮し、高品質なデータポイントを同定する有効性を確認した。
BAILのパフォーマンスは異なるハイパーパrameterに対して安定しており、微調整を必要としない。一方、BCQ や BEAR はパrameter選択に敏感である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。