QUICK REVIEW

[論文レビュー] An Optimistic Perspective on Offline Reinforcement Learning

Rishabh Agarwal, Dale Schuurmans|arXiv (Cornell University)|Jul 10, 2019

Reinforcement Learning in Robotics参考文献 46被引用数 95

ひとこと要約

本論文は、巨大で多様な DQNリプレイデータセット上でのオフライン訓練が、最近のオフポリシーRLアルゴリズムを最良のオンラインDQNよりも上回らせ、さらにオフライン性能を向上させるRandom Ensemble Mixture (REM)を導入することを示している。

ABSTRACT

Off-policy reinforcement learning (RL) using a fixed offline dataset of logged interactions is an important consideration in real world applications. This paper studies offline RL using the DQN replay dataset comprising the entire replay experience of a DQN agent on 60 Atari 2600 games. We demonstrate that recent off-policy deep RL algorithms, even when trained solely on this fixed dataset, outperform the fully trained DQN agent. To enhance generalization in the offline setting, we present Random Ensemble Mixture (REM), a robust Q-learning algorithm that enforces optimal Bellman consistency on random convex combinations of multiple Q-value estimates. Offline REM trained on the DQN replay dataset surpasses strong RL baselines. Ablation studies highlight the role of offline dataset size and diversity as well as the algorithm choice in our positive results. Overall, the results here present an optimistic view that robust RL algorithms trained on sufficiently large and diverse offline datasets can lead to high quality policies. The DQN replay dataset can serve as an offline RL benchmark and is open-sourced.

研究の動機と目的

実世界の問題において、オンラインデータ収集の実用的な代替手段としてオフラインRLを動機づける。
分布ズレ補正なしで固定された大規模なオフラインデータセットから、現代のオフポリシーRL手法が効果的に学習できるかを評価する。
REMを特に活用したアンサンブル法による堅牢なオフライン学習を提案し、汎化を高める。
DQNリプレイデータセットを用いてAtari 2600でオフラインRLをベンチマークし、再現可能なベースラインを確立する。

提案手法

60のAtariゲームを横断して、DQNリプレイデータセットを用いたオフラインRLを分析する。
Random Ensemble Mixture (REM)を導入する。これは複数のQ値ヘッドのランダムな凸結合に対して最適なBellman整合性を課すQ学習の変種である。
REMがヘッド推定の凸結合を形成する多頭Qネットワークを用いて学習を推進する。
オフラインのQR-DQN、C51、およびオンラインのベースラインと比較して、REMとEnsemble-DQNのオフライン性能を評価する。
アンサンブルヘッドが最適Q関数へ収束する時を分析する理論的洞察（命題1）を提供する。

実験結果

リサーチクエスチョン

RQ1オフラインデータのみで訓練された標準的なオフポリシー深層RLアルゴリズムは、オフラインデータセット内の最良のポリシーを上回ることができるか？
RQ2REMのような堅牢なアンサンブルベースアプローチは、オフラインの汎化とAtari 2600ゲームでの性能を向上させるか？
RQ3オフラインデータセットのサイズと多様性は、オフラインRL手法の成功にどのように影響するか？
RQ4REMはオンライン学習設定でもオフライン設定と同様に効果的か？
RQ5オフラインの大規模Atariベンチマークにおいて、異なるRLアルゴリズムの選択はどのように比較されるか？

主な発見

オフラインのQR-DQNとC51はオフラインDQNより改善するが、REMがオフライン設定で最も大きな利得を生む。
十分な勾配更新と多様なデータがあれば、オフラインREMは完全に訓練されたオンラインC51の利得を上回る。
Adamを用いたDQNは、オフラインレジームでQR-DQNとオンラインDQNの性能のギャップを埋め、REMは漸近的な性能で一貫してリードする。
オフラインデータセットのサイズと多様性はオフラインRLの成功に大きな影響を与え、より大規模で多様なデータセットはより良い汎化を可能にする。
REMのランダムアンサンブル訓練は頑健な正則化として機能し、オフライン実験全体で単純なアンサンブル法よりも良い性能を実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。