QUICK REVIEW

[論文レビュー] Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models

Kurtland Chua, Roberto Calandra|arXiv (Cornell University)|May 30, 2018

Reinforcement Learning in Robotics参考文献 49被引用数 185

ひとこと要約

PESTSは、軌道サンプリングを用いた不確実性を考慮した確率的ニューラルネット動力学を用いて、標準ベンチマークでモデルフリーの漸近性能に匹敵する、はるかに少ないサンプル数で実現するモデルベース強化学習を達成する。

ABSTRACT

Model-based reinforcement learning (RL) algorithms can attain excellent sample efficiency, but often lag behind the best model-free algorithms in terms of asymptotic performance. This is especially true with high-capacity parametric function approximators, such as deep networks. In this paper, we study how to bridge this gap, by employing uncertainty-aware dynamics models. We propose a new algorithm called probabilistic ensembles with trajectory sampling (PETS) that combines uncertainty-aware deep network dynamics models with sampling-based uncertainty propagation. Our comparison to state-of-the-art model-based and model-free deep RL algorithms shows that our approach matches the asymptotic performance of model-free algorithms on several challenging benchmark tasks, while requiring significantly fewer samples (e.g., 8 and 125 times fewer samples than Soft Actor Critic and Proximal Policy Optimization respectively on the half-cheetah task).

研究の動機と目的

深いモデルベースダイナミクスに不確実性を組み込むことで、サンプル効率の高い強化学習を動機づける。
ニューラルネットとアンサンブルを組み合わせて、アレータティック不確実性とエピステミック不確実性を捉える不確実性意識型ダイナミクスモデルを開発する。
計画中に不確実性を伝播させるため、モデル予測制御フレームワーク内で軌道サンプリングを提案する。
本手法が、モデルフリー法と漸近的な性能を、はるかに少ないサンプルで達成することを示す。

提案手法

動力学をモデル化するために、ブートストラップされた確率的ニューラルネットワークのアンサンブルを用いる、軌道サンプリングを備えた確率的アンサンブル（PETS）を提案する。
アレータティック不確実性を確率的ネットを用いて分離・捉え、エピステミック不確実性をアンサンブルを用いて捉える。
複数のパーティクルとブートストラップインデックスを用いた軌道サンプリングを用いて、時間を通じて不確実性を伝播させる。
予測軌道上の期待報酬に基づいて各ステップで行動列を最適化するために、CEM（クロスエントロピ法）を用いたモデル予測制御を適用する。
データでモデルを訓練し、試行ベースのデータ収集で更新し、モデルフリーおよびGPベースのベースラインと比較評価する。

実験結果

リサーチクエスチョン

RQ1不確実性を意識した深層ニューラルネット動力学モデルは、サンプル複雑性を低減しつつ、モデルベースとモデルフリーのRLの性能差を縮められるか？
RQ2アレータティック不確実性とエピステミック不確実性のモデリングが、計画と学習効率にどのような影響を与えるか？
RQ3異なる不確実性伝播手法が、計画の質とデータ効率にどう影響するか？
RQ4確率的ネットワークのアンサンブルは、実用的で高次元の制御タスクにスケール可能か？
RQ5PETS風の手法は、標準ベンチマークで、従来の最先端モデルフリー手法と漸近的な性能を、はるかに少ないサンプルで達成するか？

主な発見

PETSは、ベンチマーク課題で最先端のモデルフリー手法と漸近的性能を一致させ、はるかに少ないサンプルで実現する。
実験では half-cheetah において Soft Actor Critic に比べてサンプル数を8分の1で済ませた。
PETSは、いくつかのタスクで従来のモデルベース手法や一部のモデルフリーのベースラインを上回り、モデリングと計画に不確実性を組み込む価値を示している。
確率的アンサンブルと軌道サンプリングの組み合わせは、アレータティック不確実性とエピステミック不確実性の両方に対する堅牢な対応を提供し、データ効率を向上させる。
モーメントマッチングは低次元タスクでは競争力があるが、半-cheetahのような高次元タスクでは信頼性が低い。
モデル選択（PEアンサンブル）の影響が、用いられる特定の不確実性伝播手法よりもパフォーマンスに大きく影響する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。