QUICK REVIEW

[論文レビュー] Residual Policy Learning

Tom Silver, Kelsey R. Allen|arXiv (Cornell University)|Dec 15, 2018

Reinforcement Learning in Robotics参考文献 40被引用数 52

ひとこと要約

RPL は任意の初期ポリシーを深層強化学習を用いた学習可能な残差で拡張し、長期的で報酬が希薄なロボティック操作タスクにおいて性能とデータ効率を向上させる。

ABSTRACT

We present Residual Policy Learning (RPL): a simple method for improving nondifferentiable policies using model-free deep reinforcement learning. RPL thrives in complex robotic manipulation tasks where good but imperfect controllers are available. In these tasks, reinforcement learning from scratch remains data-inefficient or intractable, but learning a residual on top of the initial controller can yield substantial improvements. We study RPL in six challenging MuJoCo tasks involving partial observability, sensor noise, model misspecification, and controller miscalibration. For initial controllers, we consider both hand-designed policies and model-predictive controllers with known or learned transition models. By combining learning with control algorithms, RPL can perform long-horizon, sparse-reward tasks for which reinforcement learning alone fails. Moreover, we find that RPL consistently and substantially improves on the initial controllers. We argue that RPL is a promising approach for combining the complementary strengths of deep reinforcement learning and robotic control, pushing the boundaries of what either can achieve independently. Video and code at https://k-r-allen.github.io/residual-policy-learning/.

研究の動機と目的

複雑なロボット操作タスクにおける scratch からの学習のデータ非効率性を動機づけて対処する。
任意の初期ポリシーを拡張する単純な残差学習フレームワークを提案する。
学習する残差が初期ポリシーの様々な出所で性能を改善することを示す。
部分観測・ノイズ・モデルのミスフィットがある challenging MuJoCo タスクにおいてデータ効率の向上と頑健性を実証する。

提案手法

初期ポリシー pi に学習可能な残差 f_theta を付与して pi_theta(s) = pi(s) + f_theta(s) を形成する。
残差を残差 MDP M^(pi) のポリシーとして扱い、遷移を T^(pi)(s,a,s') = T(s, pi(s) + a, s') とする。
モデルフリーの深層強化学習法（HER を用いた DDPG）で f_theta を学習し、最後の層を 0 に初期化して pi を保持する。
初期ポリシーが強いがクリティックが遅れる Burn-in 期間中にクリティックを固定して学習を安定化させることを選択的に行う。
必要に応じて POMDP のために短い状態履歴を用いてリカレントポリシーへ拡張する。
初期ポリシー単独、Scratch からの学習（DDPG+HER）、Expert-Explore 変種を含むベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1残差ポリシー学習は、手設計・MPC・キャッシュされたモデルベースコントローラなど、様々な初期ポリシーを一貫して改善できるのか？
RQ2RPL は長期的で報酬が希薄なロボットタスクにおいて scratch からの学習よりデータ効率が良いのか？
RQ3部分観測、センサノイズ、モデルミススペックがある場合に RPL はどうなるのか？
RQ4残差ポリシーは良好な初期ポリシーの性能を維持しつつその失敗を修正できるのか？
RQ5実務でモデルベースの RL 手法を上回る、あるいは補完することが RPL で実現できるのか？

主な発見

RPL は六つの MuJoCo 操作タスク全体で初期ポリシーを大幅に改善する。
多くのケースで、RPL は scratch からの学習よりはるかに少ないサンプル数で収束する（例: PickAndPlace ではおおよそ 10 倍少ない）。
RPL はセンサノイズや構造化された不確実性に対して頑健で、ベースラインが失敗するところで高い成功率を達成する。
RPL はモデルベース RL のベースライン（PETS）を上回ることがあり、モデルベースコントローラ（CachedPETS）の上に用いると収束を加速できる。
Expert-Explore ベースラインは探索を改善するが、RPL のデータ効率を完全には説明せず、残差のパラメータ化と初期化の恩恵があることを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。