QUICK REVIEW

[論文レビュー] Keep Doing What Worked: Behavioral Modelling Priors for Offline Reinforcement Learning

Noah Siegel, Jost Tobias Springenberg|arXiv (Cornell University)|Feb 19, 2020

Reinforcement Learning in Robotics参考文献 33被引用数 48

ひとこと要約

この論文では、オフライン強化学習を安定化させるために、現在のタスクで成功する可能性が高いデータに見られる行動へポリシーを偏らせることで、advantage-weighted behavior model (ABM) priorを導入します。これにより、異種データソースからの安定した学習が可能になります。

ABSTRACT

Off-policy reinforcement learning algorithms promise to be applicable in settings where only a fixed data-set (batch) of environment interactions is available and no new experience can be acquired. This property makes these algorithms appealing for real world problems such as robot control. In practice, however, standard off-policy algorithms fail in the batch setting for continuous control. In this paper, we propose a simple solution to this problem. It admits the use of data generated by arbitrary behavior policies and uses a learned prior -- the advantage-weighted behavior model (ABM) -- to bias the RL policy towards actions that have previously been executed and are likely to be successful on the new task. Our method can be seen as an extension of recent work on batch-RL that enables stable learning from conflicting data-sources. We find improvements on competitive baselines in a variety of RL tasks -- including standard continuous control benchmarks and multi-task learning for simulated and real-world robots.

研究の動機と目的

オンラインの対話が不可能またはコストが高い場合に、固定バッチデータから学習する動機、特にロボティクス。
データによってサポートされない行動を回避しつつ、任意の行動データを活用する方法を開発。
学習データ駆動の事前知識に近づく更新制約でポリシー改善を安定化。
連続制御ベンチマークとマルチタスクロボティクス課題での安定性と性能の向上を示す。

提案手法

ポリシーが learned prior に近い制約の下で改善されるポリシー反復フレームワークを提案。
BM（シンプルな行動モデル）として、またはデータ-supported, task-relevant actions を強調する ABM として prior policy を学習。
V target の TD誤差最小化を用いて現在のポリシーで Q を評価し、 offline settings で max-over-actions を回避。
ポリシー改善ステップで、 prior に対して KL 制約以内で期待 Q を最大化: Eτ[ Ea~π(a|s)[Q̂πi(s,a)] ] subject to KL(π(·|s) || π_prior(·|s)) ≤ ε.
必要に応じて EM 風最適化（MPO に触発）や確率的価値勾配最適化を実装して、制約付き目的関数を解く。
ABM objective は、データの断片を realized advantage R(τt:N) − V̂πi(st) の関数で重み付けし、有益な行動に焦点を当てつつデータのサポート内にとどまる。

実験結果

リサーチクエスチョン

RQ1適応的でデータ駆動の prior が、混在する行動データと複数タスクからの安定したオフライン RL を可能にするか？
RQ2学習済み prior に対してポリシー改善を制約することで、固定バッチ RL における過大評価と外挿エラーを防げるか？
RQ3ABM とプレーンな行動モデル prior の間で、対立するデータや多峰性データの取り扱いにおいてどう比較されるか？
RQ4オフラインデータからの多タスク学習とロボット操作の転移を提案手法は達成できるか？
RQ5オフラインデータを用いたポリシー反復スキームで、ポリシー評価ステップは学習を安定させるのに十分か？

主な発見

ABM prior はバッチデータからの安定した学習を可能にし、強力なオフラインベースラインと比較して連続制御ベンチマークで性能を向上させる。
BM priors は単純な領域で役立つが、ABM は Hopper と Quadruped タスクで矛盾するデータや多峰性行動をよりうまく扱う。
ABM を強化した手法は BEAR や BCQ のベースラインと同等か優れた結果を、制御スイートのタスクおよびシミュレーションでのマルチタスクロボティック操作で達成。
このアプローチは ABM+MPO が関連する軌跡を含むデータから新しいタスクを学習し、Sawyer ロボットの実データから7タスクを再学習するのを短縮時間で可能にする。
ABM を offline MPO と組み合わせると、シミュレーションと実世界のロボット実験の両方で改善をもたらし、マルチタスク学習とデータ駆動タスク転移を含む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。