QUICK REVIEW

[論文レビュー] Benchmarking Model-Based Reinforcement Learning

Tingwu Wang, Xuchan Bao|arXiv (Cornell University)|Jul 3, 2019

Reinforcement Learning in Robotics参考文献 43被引用数 242

ひとこと要約

11個のMBRLアルゴリズムと4つのMFRLベースラインを対象とした、18のOpenAI Gym風環境での包括的なベンチマーク。性能、ノイズへの頑健性、モデルベース強化学習の3つのボトルネックを分析。

ABSTRACT

Model-based reinforcement learning (MBRL) is widely seen as having the potential to be significantly more sample efficient than model-free RL. However, research in model-based RL has not been very standardized. It is fairly common for authors to experiment with self-designed environments, and there are several separate lines of research, which are sometimes closed-sourced or not reproducible. Accordingly, it is an open question how these various existing MBRL algorithms perform relative to each other. To facilitate research in MBRL, in this paper we gather a wide collection of MBRL algorithms and propose over 18 benchmarking environments specially designed for MBRL. We benchmark these algorithms with unified problem settings, including noisy environments. Beyond cataloguing performance, we explore and unify the underlying algorithmic differences across MBRL algorithms. We characterize three key research challenges for future MBRL research: the dynamics bottleneck, the planning horizon dilemma, and the early-termination dilemma. Finally, to maximally facilitate future research on MBRL, we open-source our benchmark in http://www.cs.toronto.edu/~tingwuwang/mbrl.html.

研究の動機と目的

標準化され共同のベンチマークの下で、現代のMBRLアルゴリズムの相対的な性能をモデルフリーのベースラインと比較評価する。
観測ノイズおよび作用ノイズに対するMBRL手法の頑健性を評価する。
動力学ボトルネック、プランニングホライズン、早期終了というMBRLの進展を制限する主要な課題を特定・特徴づける。
再現性と公正な比較を可能にするオープンソースのベンチマーク資源を提供する。

提案手法

11種類のMBRLアルゴリズムと4つのMFRLベースラインを多様に収集する。
OpenAI Gymに基づく環境（18タスク）と問題設定を標準化する（ノイズを含む）。特定の手法の分化可能性を確保するために報酬を変更する。
4つの乱数種で、各アルゴリズムごとにグリッド探索したハイパーパラメータを用い、200kタイムステップでの性能を評価する（選択された手法では1Mタイムステップも）。
ガウス摂動を用いて観測ノイズと作用ノイズに対する頑健性を分析する。
経験的測定に基づく3つの仮説駆動型ボトルネックを調査する（動力学ボトルネック、プランニングホライズン、早期終了のジレンマ）。
再現性のためのオープンソースのベンチマークプラットフォームとドキュメンテーションを提供する。

実験結果

リサーチクエスチョン

RQ1さまざまな難易度の環境を横断して、既存のMBRLアプローチは互いに、そして標準的なMFRLベースラインとどのように比較されるか。
RQ2MBRL手法は観測ノイズと作用ノイズに対して頑健か、またこの頑健性はモデルフリーのベースラインとどう比較されるか。
RQ3MBRLの性能を制限する主要な要因は何か、動力学ボトルネック、プランニングホライズンの問題、早期終了のジレンマとして現れるか。
RQ4標準化されたベンチマークとオープンソースコードはMBRLの進展と再現性を加速できるか。

主な発見

1つのMBRL手法がすべての環境を支配することはなく、性能はタスクの難易度と環境特性によって変化する。
ShootingおよびDyna風MBRL手法は単純なタスクでしばしば優れ、複雑で高次元のタスクではモデルフリー手法および真のダイナミクスと比べて残るギャップが露呈する。
観測ノイズおよび作用ノイズに対する頑健性は均一でなく、いくつかのDyna風手法は耐性を示す一方、他はノイズで劣化しやすい。
3つの持続的ボトルネックを同定: 動力学ボトルネック（学習したダイナミクスがデータ増加で頭打ち）、プランニングホライズンのジレンマ（長いホライズンは次元の呪いとモデル誤差のため性能を損ねる）、早期終了のジレンマ（早期終了はしばしMBRLの性能を害する）。
真のダイナミクスは一般に高い性能を可能にするが、必ずしもスケール可能ではない。ダイナミクスが学習される場合、性能はモデルフリーのベースラインおよび完全な真のダイナミクスのベースラインより低いレベルで頭打ちになるタスクがいくつかある。
本研究は、モデルバイアスや外挿誤差を緩和するための不確実性モデリング、アンサンブル、頑健なプランニングモジュールの重要性を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。