QUICK REVIEW

[論文レビュー] D4RL: Datasets for Deep Data-Driven Reinforcement Learning

Justin Fu, Aviral Kumar|arXiv (Cornell University)|Apr 15, 2020

Reinforcement Learning in Robotics参考文献 50被引用数 331

ひとこと要約

D4RL は、実世界のデータ特性を反映するさまざまなタスクとデータセットを備えた包括的なオフライン強化学習ベンチマークスイートを導入し、標準化された評価プロトコルとオープンソース実装を伴います。

ABSTRACT

The offline reinforcement learning (RL) setting (also known as full batch RL), where a policy is learned from a static dataset, is compelling as progress enables RL methods to take advantage of large, previously-collected datasets, much like how the rise of large datasets has fueled results in supervised learning. However, existing online RL benchmarks are not tailored towards the offline setting and existing offline RL benchmarks are restricted to data generated by partially-trained agents, making progress in offline RL difficult to measure. In this work, we introduce benchmarks specifically designed for the offline setting, guided by key properties of datasets relevant to real-world applications of offline RL. With a focus on dataset collection, examples of such properties include: datasets generated via hand-designed controllers and human demonstrators, multitask datasets where an agent performs different tasks in the same environment, and datasets collected with mixtures of policies. By moving beyond simple benchmark tasks and data collected by partially-trained RL agents, we reveal important and unappreciated deficiencies of existing algorithms. To facilitate research, we have released our benchmark tasks and datasets with a comprehensive evaluation of existing algorithms, an evaluation protocol, and open-source examples. This serves as a common starting point for the community to identify shortcomings in existing offline RL methods and a collaborative route for progress in this emerging area.

研究の動機と目的

オフライン強化学習を RL と教師あり学習の架け橋として位置づけ、既に収集された大規模データセットを活用する。
現実世界のデータ収集の課題を反映するベンチマークを設計する（例：狭い分布、デモ、ポリシーの混合）。
再現性のあるオフライン RL 研究を可能にする標準化された評価プロトコルとオープンソースの参照を提供する。
単純なタスクを超えて、アルゴリズムの性能差を区別できる幅広いドメインと難易度をカバーする。

提案手法

Maze2D、AntMaze、Gym-MuJoCo、Adroit、FrankaKitchen、Flow、CARLA などのドメインに跨るオフラインタスクとデータセットのスイートを提案し、現実的な設定でオフライン RL を評価する。
非マルコフ性挙動、スパース報酬、無向データ、ポリシーの混合といったデータ収集特性を特徴づけ、オフライン RL アルゴリズムをストレステストする。
乱数ベースとエキスパートベースのベースラインを用いた一貫したスコアリング手法でパフォーマンスを正規化し、タスク間の比較を可能にする。
提案タスク上で最先端のオフライン RL アルゴリズムとベースラインをベンチマークし、長所と短所を特定する。
コミュニティの導入と再現性を促進するために、オープンソースの API、データセット、参照実装をリリースする。

実験結果

リサーチクエスチョン

RQ1現実世界のデータ収集を反映した多様なデータセット（例：デモ、ポリシーの混合、非マルコフ性データ）に対して、現在のオフライン RL 手法はどの程度性能を発揮するか？
RQ2どのデータ特性がオフライン RL アルゴリズムを最も困難にし、どの手法がそれらに最も適しているか（例：保守的アプローチ対模倣学習ベースのベースライン）？
RQ3ポリシー混合や無向データはオフライン RL の性能を低下させるか、既存手法はこのような分布に対処できるか？
RQ4オフライン RL は固定データ下でのスパース報酬や高探索ドメインで、オンラインベースラインと比べて利点をもたらすか？

主な発見

オフライン RL アルゴリズムはタスク間で性能が異なり、無向データや混合ポリシーのデータで大きなギャップが生じる。
保守的手法（例：BEAR、AWR、CQL、BCQ）はFlowおよび Gym-MuJoCo ドメインで偏りがある狭いデータ分布をうまく扱う。
非マルコフ性データ、 stitching 要件、或いは高い観測複雑性を伴うタスク（例：Maze2D、AntMaze、CARLA）は、多くの手法にとって依然として難しい。
スパース報酬を含むいくつかのドメインでは、オフライン RL 手法がオンラインの SAC より優れている場合があり、探索課題をオフラインで対処する可能性を示唆する。
エキスパートとサブ最適データを組み合わせたデータセットは、多くのアルゴリズムが混合品質データを十分に活用していないことを示し、サンプル効率とデータ駆動正則化の改善の必要性を強調する。
ベンチマークは単純なタスクを超えた既存アルゴリズムの欠陥を露呈させ、今後のオフライン RL 研究を導く。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。