[論文レビュー] Learning Latent Dynamics for Planning from Pixels
PlaNet は、ピクセル観測から潜在環境ダイナミクスを学習し、オンラインモデル予測制御を用いて潜在空間で計画するモデルベースのエージェントであり、モデルフリー法と比較してはるかに少ない環境相互作用で強力な性能を達成します。
Planning has been very successful for control tasks with known environment dynamics. To leverage planning in unknown environments, the agent needs to learn the dynamics from interactions with the world. However, learning dynamics models that are accurate enough for planning has been a long-standing challenge, especially in image-based domains. We propose the Deep Planning Network (PlaNet), a purely model-based agent that learns the environment dynamics from images and chooses actions through fast online planning in latent space. To achieve high performance, the dynamics model must accurately predict the rewards ahead for multiple time steps. We approach this using a latent dynamics model with both deterministic and stochastic transition components. Moreover, we propose a multi-step variational inference objective that we name latent overshooting. Using only pixel observations, our agent solves continuous control tasks with contact dynamics, partial observability, and sparse rewards, which exceed the difficulty of tasks that were previously solved by planning with learned models. PlaNet uses substantially fewer episodes and reaches final performance close to and sometimes higher than strong model-free algorithms.
研究の動機と目的
- ピクセル観測からダイナミクスを学習して未知環境での計画を動機づける。
- 決定論的と確率的成分の両方を持つ潜在ダイナミクスモデルを開発して、長期的なロバスト性を持つ予測を実現する。
- 潜在空間での多段予測精度を向上させるために潜在オーバーシューティングを導入する。
- 潜在空間での計画を実証して、画像ベースの連続制御タスクで高い性能を達成する。
- モデルフリーのベースラインと比較してデータ効率を改善しつつ、計算時間を競争力のある水準に維持する。
提案手法
- ピクセルから環境ダイナミクスをモデル化する決定論的および確率的遷移を組み合わせたリカレント状態空間モデル(RSSM)を用いる。
- 過去の観測と行動から潜在的信念を推定するエンコーダを訓練し、POMDP設定でのフィルタリングを可能にする。
- 画像をレンダリングせずに潜在空間内の行動列を探索するクロスエントロピ法(CEM)に基づくモデル予測制御(MPC)プランナーを適用する。
- 潜在空間での正確な多段予測を促すために、潜在オーバーシューティングを含む変分境界を最適化する(距離1..Dを集合化)。
- 現在のモデルで計画し最初の行動を実行してオンライン学習ループとして各ステップで再計画することで、オンラインデータを収集する。
- DeepMind Control Suite の六つのピクセルベースの連続制御タスクで PlaNet を評価し、モデルフリーのベースラインやアブレーションと比較する。
実験結果
リサーチクエスチョン
- RQ1ピクセル観測から学習した潜在空間での計画は、部分観測性を持つ連続制御タスクで競争力のある性能を達成できるか。
- RQ2決定論的成分と確率的成分の両方を持つ潜在ダイナミクスモデルは、純粋に決定論的または純粋に確率的なモデルと比較して計画性能を改善するか。
- RQ3潜在オーバーシューティングは、長期的な予測精度と計画の最終的なタスク性能を改善するか。
- RQ4ピクセルから訓練された PlaNet は、最先端のモデルフリー法と比較してデータ効率がどの程度か。
主な発見
| 方法 | モダリティ | エピソード | カートポール スイングアップ | リーチャー Easy | チータラン | フィンガー スピン | カップ キャッチ | ウォーカー ウォーク |
|---|---|---|---|---|---|---|---|---|
| A3C | proprioceptive | 100,000 | 558 | 285 | 214 | 129 | 105 | 311 |
| D4PG | pixels | 100,000 | 862 | 967 | 524 | 985 | 980 | 968 |
| PlaNet (ours) | pixels | 1,000 | 821 | 832 | 662 | 700 | 930 | 951 |
| CEM + true simulator | simulator state | 0 | 850 | 964 | 656 | 825 | 993 | 994 |
- PlaNet は、六つの画像ベースの連続制御タスクで最終的な性能を強力に達成し、時には強力なモデルフリー法を凌ぐ。
- RSSM(決定論的+確率的遷移)を用いた PlaNet は、純粋に決定論的なバリアントおよび純粋に確率的なバリアントをタスク across で上回る。
- 潜在オーバーシューティングは長期予測と計画の有効性を向上させるが、RSSM 単独でも多くのタスクで substantial gains をもたらす。
- PlaNet は、報告された比較で約200倍少ない環境相互作用で最終性能をTopのモデルフリー法に近づけるかそれを超える。
- オンラインのMPC(CEM)による潜在空間での計画は堅牢な計画性能を提供し、計画ホライズンの反復的改良から恩恵を受ける。
- ピクセルから訓練された潜在ダイナミクスを用いた PlaNet は、部分観測性と sparse reward が存在するタスクを、以前は計画ベースのアプローチにとって難しかったものを解決できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。