QUICK REVIEW

[論文レビュー] Critic Regularized Regression

Ziyu Wang, Alexander Novikov|arXiv (Cornell University)|Jun 26, 2020

Reinforcement Learning in Robotics参考文献 34被引用数 90

ひとこと要約

CRR は、学習済みのクリティックを用いて行動をフィルタリングし、固定データセットからの方策学習を誘導するオフライン強化学習アルゴリズムであり、さまざまな高次元タスクにおいて、いくつかの最先端のオフライン RL 手法を上回る。

ABSTRACT

Offline reinforcement learning (RL), also known as batch RL, offers the prospect of policy optimization from large pre-recorded datasets without online environment interaction. It addresses challenges with regard to the cost of data collection and safety, both of which are particularly pertinent to real-world applications of RL. Unfortunately, most off-policy algorithms perform poorly when learning from a fixed dataset. In this paper, we propose a novel offline RL algorithm to learn policies from data using a form of critic-regularized regression (CRR). We find that CRR performs surprisingly well and scales to tasks with high-dimensional state and action spaces -- outperforming several state-of-the-art offline RL algorithms by a significant margin on a wide range of benchmark tasks.

研究の動機と目的

データ収集コストと安全性の問題に対処するため、固定のオフラインデータセットから方策の学習を促進する。
標準的な actor-critic フレームワークと互換性のある、シンプルで実装可能なオフライン RL 手法を開発する。
学習済みクリティックを介して行動をフィルタリングすることにより、外挿と過大評価の問題を緩和する。
CRR が高次元の状態空間・行動空間と多様なデータ品質にスケールすることを示す。

提案手法

方策学習を、現在の方策により上回られない Q 値を持つデータの行動で学習する、クリティックフィルタ付き回帰として定式化する。
分布的 Q 関数と、Q によって増加する非負のフィルタ f を用いて、データがサポートする行動に方策更新を限定する。
推定された優位性に基づく、二値的および指数的重み付けを含む、さまざまなフィルタリング関数 f を検討する。
深層ネットワーク、ターゲットネットワーク、および分布的クリティックを用いて CRR を実装し、学習を安定化する。
テスト時の行動選択を改善するため、Q 値で行動を再重み付けするクリティック重み付き方策（CWP）を導入する。
CRR の更新のためのアルゴリズム手順（Algorithm 1）を提供し、単純な BC ライクフィルタリングよりも指数重み付け（式 Eq. 4）の利点を論じる。

実験結果

リサーチクエスチョン

RQ1CRR は、オフラインデータセットのサポートに方策更新を効果的に制限して、オフライン RL における不良な Q 推定を回避できるか？
RQ2さまざまな優位推定量とフィルタリング関数が、オフライン RL における性能にどのように影響するか？
RQ3CRR は高次元の状態空間・行動空間と多様なデータ品質にスケールするか？
RQ4標準CRRと比較した場合、テスト時の性能に対する Critic Weighted Policy（CWP）の影響はどの程度か？

主な発見

CRR は、広範なベンチマークタスクでいくつかの最先端オフライン RL アルゴリズムを上回る。
CRR は高次元の状態・行動空間にスケールし、多様または低品質なデータセットを扱える。
CRR のさまざまなバリアント（exp、binary、binary max）は、タスク間で堅牢に機能し、易しい領域と難しい領域で得意なバリアントが異なる。
CWP は領域を問わず、テスト時の CRR の性能を一般に向上させる。
難易度の高い操作・移動タスクにおいて、CRR はしばしば D4PG、BCQ、ABM、Behavior Cloning を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。