QUICK REVIEW

[論文レビュー] Calibrated Model-Based Deep Reinforcement Learning

Ali Malik, Volodymyr Kuleshov|arXiv (Cornell University)|Jun 19, 2019

Reinforcement Learning in Robotics被引用数 23

ひとこと要約

本論文は、モデルベース強化学習における予測不確実性のキャリブレーションを向上させるシンプルなリキャリブレーション手法を提案する。これにより、より信頼性の高い計画と探索が可能になる。任意のモデルベース強化学習エージェントに、等方的回帰またはプラット scaling を適用することで、先行手法に比べて 50% 少ないサンプルで HalfCheetah で最先端の性能を達成し、サンプル効率と計画精度が著しく向上する。

ABSTRACT

Estimates of predictive uncertainty are important for accurate model-based planning and reinforcement learning. However, predictive uncertainties---especially ones derived from modern deep learning systems---can be inaccurate and impose a bottleneck on performance. This paper explores which uncertainties are needed for model-based reinforcement learning and argues that good uncertainties must be calibrated, i.e. their probabilities should match empirical frequencies of predicted events. We describe a simple way to augment any model-based reinforcement learning agent with a calibrated model and show that doing so consistently improves planning, sample complexity, and exploration. On the extsc{HalfCheetah} MuJoCo task, our system achieves state-of-the-art performance using 50\% fewer samples than the current leading approach. Our findings suggest that calibration can improve the performance of model-based reinforcement learning with minimal computational and implementation overhead.

研究の動機と目的

深層学習に基づくモデルベース強化学習エージェントにおける不確実性の不キャリブレーションという重要な問題に取り組む。
予測確率が実際の頻度と一致するキャリブレートされた予測不確実性が、より良い計画と意思決定をもたらすことを示す。
既存のモデルベース強化学習アルゴリズムに、不確実性推定をキャリブレートする最小限の複雑さの手法を組み込む。
ロボット工学や制御などのハイリスクな強化学習環境におけるサンプル効率、探索と活用のバランス、耐性を向上させる。
連続的制御、文脈的バンディット、在庫管理を含む多様なベンチマークでこのアプローチを検証する。

提案手法

最近の不確実性キャリブレーション技術（例：等方的回帰、プラットスケーリング）をモデルベース強化学習における確率的ワールドモデルに適応する。
学習済みダイナミクスモデルの出力分布に対してリキャリブレーションを適用し、予測された信頼度が観測された頻度と一致するようにする。
要因分解された分布に対して成分ごとのリキャリブレーションを用い、多次元状態予測の効率的キャリブレーションを可能にする。
基本的な計画または学習手順を変更せずに、任意のモデルベース計画アルゴリズム（例：PE-DS、SAC）にキャリブレート済みモデルを統合する。
診断ツールとベストプラクティスを活用してキャリブレーション品質を評価し、実装をガイドする。
ベースモデル（例：深層ニューラルネットワーク）を環境のロールアウトデータで学習した後、別個の検証セットを用いてその予測出力をリキャリブレーションする。

実験結果

リサーチクエスチョン

RQ1モデルベース強化学習における予測不確実性のリキャリブレーションは、計画性能とサンプル効率を向上させることができるか？
RQ2リキャリブレーションは、危険なまたは新しい状態遷移に対して、より正確な信頼度推定を提供することで探索を向上させるか？
RQ3モデルベース強化学習において、リキャリブレーションは他の不確実性推定手法（例：ディープアンサンブル、ベイジアンニューラルネットワーク）と比べてどのように差をつけるか？
RQ4既存のモデルベースエージェントに、最小限の計算的および実装的オーバーヘッドでリキャリブレーションを適用できる範囲はどの程度か？
RQ5リキャリブレーションは、連続的制御や在庫管理を含む多様な強化学習ベンチマークで一貫した性能向上をもたらすか？

主な発見

キャリブレート済みの PE-DS エージェントは、HalfCheetah MuJoCo 環境で最先端の性能を達成し、わずか 180k ステップでほぼ最適な性能に到達した。これは、以前の最良手法に比べて 50% 少ないサンプルである。
キャリブレート済みモデルは、特に初期学習段階で、よりきめ細かく正確な不確実性バッファを示す。これは CartPole 環境の可視化で確認できる。
キャリブレート済みモデルは、学習初期段階で累積報酬をより早く向上させ、キャリブレーションがより良いモデルベース計画と意思決定と相関していることを示している。
すべての評価済み環境（CartPole、Ant、HalfCheetah）において、キャリブレート済み PE-DS は PE-DS もしくはモデルフリーの SAC よりもサンプル効率に優れている。
この手法は、特に高リスクまたはレアな状態遷移において、予測の過信を低減することで、一貫して探索を改善する。
このアプローチは最小限の計算的オーバーヘッドで実現でき、既存の任意のモデルベース強化学習アルゴリズムに後処理として適用可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。