QUICK REVIEW

[論文レビュー] NeoRL: A Near Real-World Benchmark for Offline Reinforcement Learning

Rongjun Qin, Songyi Gao|arXiv (Cornell University)|Feb 1, 2021

Reinforcement Learning in Robotics参考文献 31被引用数 25

ひとこと要約

NeoRLは、マルチドメインの有限データセットと追加のテストデータを含む実世界近似のオフラインRLベンチマークを提示し、決定論的な挙動ポリシーがこれらのタスクで多くのオフラインRL手法と互角かそれを上回ることが多いことを示します。

ABSTRACT

Offline reinforcement learning (RL) aims at learning a good policy from a batch of collected data, without extra interactions with the environment during training. However, current offline RL benchmarks commonly have a large reality gap, because they involve large datasets collected by highly exploratory policies, and the trained policy is directly evaluated in the environment. In real-world situations, running a highly exploratory policy is prohibited to ensure system safety, the data is commonly very limited, and a trained policy should be well validated before deployment. In this paper, we present a near real-world offline RL benchmark, named NeoRL, which contains datasets from various domains with controlled sizes, and extra test datasets for policy validation. We evaluate existing offline RL algorithms on NeoRL and argue that the performance of a policy should also be compared with the deterministic version of the behavior policy, instead of the dataset reward. The empirical results demonstrate that the tested offline RL algorithms become less competitive to the deterministic policy on many datasets, and the offline policy evaluation hardly helps. The NeoRL suit can be found at http://polixir.ai/research/neorl. We hope this work will shed some light on future research and draw more attention when deploying RL in real-world systems.

研究の動機と目的

限られたデータで現実世界の安全性を重視した設定に対してオフラインRLを動機づける。
複数のドメインにまたがる統一された、現実世界に近いベンチマークスイートを提供する。
既存のオフラインRL手法を評価し、決定論的挙動ポリシーと比較する。
これらの現実的な文脈におけるオフラインポリシー評価(OPE)の有用性の限界を強調する。
展開準備が整ったRL研究を導くためのデータセットと評価プロトコルを提供する。

提案手法

データサイズを制御可能な多様なドメインから、現実世界に近いオフラインRLデータセットを構築し、ポリシー検証用の追加のテストデータセットを加える。
マルチレベルのポリシー（エキスパート、低/中/高リターン）を生成し、現実世界のデータ分布を模倣するためノイズを注入した劣悪なポリシーによって訓練データを収集する。
タスクごとに、状態、行動、報酬、次状態、報酬関数インターフェースへアクセスする統一APIを提供する。
決定論的挙動ポリシーとエキスパートに対して、モデルフリーおよびモデルベースのオフラインRL手法をベンチマークする。
最終ポリシーのランク付けにはオンライン評価を、オフラインモデル選択にはオフラインポリシー評価（FQE）を用い、データサポートに近づけるためにKL制約と摂動メカニズムを含める。

実験結果

リサーチクエスチョン

RQ1現実世界に近いオフラインベンチマーク上で、現行のオフラインRL手法は決定論的バージョンの挙動ポリシーを上回るかどうか。
RQ2データの品質と量は、現実的なタスクにおけるモデルフリーとモデルベースのオフラインRL手法の相対的な性能にどう影響するか。
RQ3オフラインポリシー評価法（FQE）は現実世界に近いデータセットでポリシーを信頼性高くランキングし、モデル選択を導けるか。
RQ4挙動ポリシーへの近接を強制する（KLペナルティや摂動制約を介して）ことが、オフラインRLの性能にどのような影響を与えるか。
RQ5ロボティクス、産業、金融、都市管理といった異なるドメインは、オフラインRLアルゴリズムの有効性にどのような影響を与えるか。

主な発見

BCはNeoRLのタスクで多くのオフラインRL手法と同等かそれを上回ることが多く、決定論的挙動ポリシーからの強力なベースラインが示唆される。
CQLは複数のオフライン手法の中で約1/3のタスクで最も良い成績を示すが、MuJoCoおよびIB環境で決定論的ポリシーに対する利得は限定的。
モデルベースの手法は適切な制約（例：KL）なしには性能が低下することがあり、モデルの悪用に悩まされることもあるが、MOPOのアンサンブルは一部のタスクで緩和できる。
MOPOは特定のタスク（HalfCheetahの変種など）で顕著な改善を示す一方、ロールアウト長とペナルティのハイパーパラメータに敏感。
FQEによるオフラインモデル選択はポリシーをランキングできるが、オンライン評価を上回ることは難しく、オフライン評価の信頼性には課題がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。