Skip to main content
QUICK REVIEW

[論文レビュー] Dream to Control: Learning Behaviors by Latent Imagination

Danijar Hafner, Timothy Lillicrap|arXiv (Cornell University)|Dec 3, 2019
Reinforcement Learning in Robotics参考文献 65被引用数 137
ひとこと要約

Dreamer は 学習された world model 内の latent imagination によって画像から長期的な挙動を学習し、想像された軌跡を通じて解析勾配をバックプロパゲーションして方策と値を最適化し、20 のタスクでデータ効率の良い視覚制御を達成します。

ABSTRACT

Learned world models summarize an agent's experience to facilitate learning complex behaviors. While learning world models from high-dimensional sensory inputs is becoming feasible through deep learning, there are many potential ways for deriving behaviors from them. We present Dreamer, a reinforcement learning agent that solves long-horizon tasks from images purely by latent imagination. We efficiently learn behaviors by propagating analytic gradients of learned state values back through trajectories imagined in the compact state space of a learned world model. On 20 challenging visual control tasks, Dreamer exceeds existing approaches in data-efficiency, computation time, and final performance.

研究の動機と目的

  • 高次元の視覚観測からオンラインで毎ステップの計画を行うことなく、長期的な制御を動機づけ、実現する。
  • 潜在空間で行動と状態価値の両方を学習するワールドモデルベースのエージェントを開発し、 horizon の制約を克服する。
  • 潜在ダイナミクスを通じた解析勾配を活用して、想像された軌跡を用いて方策を訓練する。
  • データ効率と難易度の高い視覚制御タスクにおける性能向上を示す。
  • 表現学習の目的と horizon の堅牢性をベースライン手法と比較する。

提案手法

  • 過去の経験から潜在ダイナミクスモデルを学習し、将来の報酬をコンパクトな状態空間で予測する。
  • 潜在空間でのアクションモデル(方策)と値モデルを訓練し、想像されたマルチステップ報酬を最大化する。
  • 潜在ダイナミクスを通じて解析勾配をバックプロパゲーションし、方策と値の予測を更新する。
  • 再パラメータ化されたアクションサンプラーと、想像の Bellman 一致値ターゲット(V_lambda)を使用する。
  • 現実の潜在状態からの想像的な軌跡を予測し、それらを最適化して実世界の方策を改善する。
  • イメージ入力を用いた DeepMind Control Suite で Dreamer を評価し、モデルフリー・モデルベースのベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1ピクセルからの長期的制御を、毎ステップのオンライン計画なしに潜在的な想像で学習できるか。
  • RQ2潜在空間での行動と状態価値の予測が、想像 horizon を超えた頑健で長期的な方策を可能にするか。
  • RQ3表現学習の目的(再構成、報酬予測、対照的学習)のうち、Dreamer の性能を最も支えるのはどれか。
  • RQ4Dreamer はデータ効率と最終的な性能において、オンライン計画法やモデルフリーのベースラインと比べてどうか。
  • RQ5Dreamer は離散アクションや早期終了のある環境にも適用可能か。

主な発見

  • Dreamer は 20 の視覚制御タスクで、先行するモデルベースおよびモデルフリーのエージェントよりデータ効率、計算時間効率、最終性能が高い。
  • 5e6 環境ステップ後、Dreamer はタスク間で平均 823 を記録し、PlaNet を上回り、より多くのステップを与えればトップのモデルフリー D4PG の性能に近づくまたは上回る。
  • 想像の中で価値モデルを学習することにより、Dreamer は想像 horizon に対して堅牢になり、長期的なクレジット割り当てを改善する。
  • ピクセル再構成を表現学習の目的として用いると、評価されたオプションの多くのタスクで最良の性能を示す。
  • Dreamer は長期的なタスク(例:acrobot、hopper)を解決し、 horizon-limited imagination や報酬のみのアプローチでは困難だった課題に対応する。
  • Dreamer は連続的なアクションにも離散的なアクションにも適用可能で、評価時の早期終了にも対処できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。