QUICK REVIEW

[論文レビュー] Off-Policy Deep Reinforcement Learning without Exploration

Scott Fujimoto, David Meger|arXiv (Cornell University)|Dec 7, 2018

Reinforcement Learning in Robotics参考文献 70被引用数 279

ひとこと要約

本論文は、外挿誤差を外部方針法を用いた固定バッチデータからの学習の障壁として特定し、環境と相互作用せずにバッチと類似する行動を生成し高価値のものを選択することで効果的に学習する、バッチ制約付きDRLアルゴリズムであるBCQを導入する。

ABSTRACT

Many practical applications of reinforcement learning constrain agents to learn from a fixed batch of data which has already been gathered, without offering further possibility for data collection. In this paper, we demonstrate that due to errors introduced by extrapolation, standard off-policy deep reinforcement learning algorithms, such as DQN and DDPG, are incapable of learning with data uncorrelated to the distribution under the current policy, making them ineffective for this fixed batch setting. We introduce a novel class of off-policy algorithms, batch-constrained reinforcement learning, which restricts the action space in order to force the agent towards behaving close to on-policy with respect to a subset of the given data. We present the first continuous control deep reinforcement learning algorithm which can learn effectively from arbitrary, fixed batch data, and empirically demonstrate the quality of its behavior in several tasks.

研究の動機と目的

データ収集が高コストまたはリスクを伴う現実的な設定として、バッチ強化学習を動機づける。
固定データからの真のオフポリシー学習における核となる障害として外挿誤差を特徴づける。
学習されたポリシーをデータ分布に合わせるために、バッチ制約付き強化学習を提案する。
連続制御タスクにおいて任意の固定バッチデータから学習するためのBCQを導入する。

提案手法

ポリシーの行動とバッチデータとの不一致を最小化するように、バッチ制約付きポリシーを定義する。
状態条件付き生成モデルとQネットワークを組み合わせて、バッチに似た行動を選択するBCQを開発する。
境界内で候補となる行動を多様化する摂動モデルを用いる。
未来状態の不確実性を抑えるため、重み付き最小を用いたクリップドダブルQ学習を採用する。
バッチ整合性下で決定論的MDPにおいて外挿誤差を排除できることを示す理論的な結果を提供する。
VAEベースの生成モデルと行動摂動を備えた実用的な深層RL実装（BCQ）を提供する。

実験結果

リサーチクエスチョン

RQ1ポリシーをバッチ分布に制限することで、固定バッチデータからのオフポリシー学習を信頼性のあるものにできるか？
RQ2探索せずにリターンを最大化するために、バッチ行動の生成モデルと価値関数を共同で学習するにはどうすればよいか？
RQ3標準的なオフポリシー手法と比べて、連続制御タスクにおいてバッチ制約付きアプローチは安定性と性能を改善するか？
RQ4どのような条件下で、バッチ制約学習はバッチ内で無偏りな価値推定やポリシー改善を保証できるか？
RQ5BCQは不完全なデモやエキスパートデモンストレーションを含む場合、従来の模倣学習およびRLベースラインと比較してどのように性能を発揮するか？

主な発見

BCQはバッチ設定の複数のMuJoCoタスクで行動ポリシーと同等かそれを上回る。
BCQの価値推定は安定しており、バッチ学習下で発散するDDPGやDQNとは異なる。
BCQはさらなる環境相互作用なしに、エキスパートおよびサブ最適なバッチデータを効果的に活用する。
不完全なデモンストレーションにおいて、BCQはPoorとExpertの行動を分離することで深層RLおよび模倣ベースラインの双方を上回る。
1つのハイパーパラメータセットでタスクを跨いで十分であり、BCQの頑健性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。