QUICK REVIEW

[論文レビュー] Model-Based Value Estimation for Efficient Model-Free Reinforcement Learning

Vladimir Feinberg, Alvin Wan|arXiv (Cornell University)|Feb 28, 2018

Reinforcement Learning in Robotics参考文献 14被引用数 168

ひとこと要約

本論文は、モデルベースの価値拡張（Model-Based Value Expansion, MVE）を提案する。これは学習済みダイナミクスモデルを短期的な想像に用いるハイブリッド手法であり、モデルフリーRLの価値推定を改善し学習を加速させる。分布ミスマッチを緩和する TD-k の工夫を含む。

ABSTRACT

Recent model-free reinforcement learning algorithms have proposed incorporating learned dynamics models as a source of additional data with the intention of reducing sample complexity. Such methods hold the promise of incorporating imagined data coupled with a notion of model uncertainty to accelerate the learning of continuous control tasks. Unfortunately, they rely on heuristics that limit usage of the dynamics model. We present model-based value expansion, which controls for uncertainty in the model by only allowing imagination to fixed depth. By enabling wider use of learned dynamics models within a model-free reinforcement learning algorithm, we improve value estimation, which, in turn, reduces the sample complexity of learning.

研究の動機と目的

学習済みダイナミクスモデルを活用して、モデルフリーRLのサンプル複雑さを削減する。
短期ホライズンのモデルベースロールアウトを通じて価値推定の精度を向上させる。
連続制御のための実用的で非微分可能なモデル互換フレームワークを提供する。
想像データを用いる際の分布ミスマッチに対処し、対処法を提案する。
制限されたホライズンのモデル使用が、純粋なモデルフリーおよび従来の MB-MF ハイブリッドを上回ることを示す。

提案手法

Hステップのモデル価値拡張（V̂_H）を定義し、Hステップ分の想像報酬を和算し、ステップHでの値尾部 V̂ を用いる。
方策πの下で未来の状態と報酬を模擬する近似ダイナミクスモデル f̂ を仮定する。
価値推定を近期のモデルベース成分と遠期のモデルフリー尾部に分解して、過度なモデル依存を避ける。
f^π の固定点を近似する訓練分布を構築し、TD-k 戦略を適用することで分布ミスマッチの対処法を導入する。
ディープアクター-クリティック系（DDPGに類似）にMVEを組み込み、クリティックのターゲットがMVE改良推定値を用い、遷移は固定分布νからサンプルされる。
非微分可能なダイナミクスを許容し、モデルの微分可能性を要求せずに前方予測を用いる。

実験結果

リサーチクエスチョン

RQ1連続制御タスクにおいて、MVEは Q^π 推定の精度を改善するか？
RQ2短期ホライズンのモデルベースのロールアウトは、微分可能なダイナミクスに依存せずにモデルフリーRLのサンプル複雑さを低減できるか？
RQ3想像データを用いる際に TD-k の工夫が学習の安定性と性能にどう影響するか？
RQ4クリティック学習に想像状態を用いる際の訓練データ分布ミスマッチの影響は何か？

主な発見

MVEは報酬が密な連続制御タスクにおいて、価値推定の品質を向上させ、学習を加速する。
TD-k の工夫は分布ミスマッチの問題を緩和し、より大きなモデルホライズンによる利得を可能にする。
イマジネーションバッファのベースラインと比較して、適切なホライズン設計とTD-kの設計を備えたMVEは実験で上回った。
MVEは改善されたQ値とより速い習熟をもたらし、モデルベース部分を短いホライズンに限定して精度とロバスト性のバランスを取る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。