[論文レビュー] Temporal Difference Learning for Model Predictive Control
TD-MPC は、タスク指向の潜在ダイナミクスモデルと、時間差学習を介して学習された終端価値関数を組み合わせて、長期価値推定を用いた長期計画を実行し、短期計画と長期価値推定の両方を活用して連続制御タスクにおけるサンプル効率と性能を向上させる。
Data-driven model predictive control has two key advantages over model-free methods: a potential for improved sample efficiency through model learning, and better performance as computational budget for planning increases. However, it is both costly to plan over long horizons and challenging to obtain an accurate model of the environment. In this work, we combine the strengths of model-free and model-based methods. We use a learned task-oriented latent dynamics model for local trajectory optimization over a short horizon, and use a learned terminal value function to estimate long-term return, both of which are learned jointly by temporal difference learning. Our method, TD-MPC, achieves superior sample efficiency and asymptotic performance over prior work on both state and image-based continuous control tasks from DMControl and Meta-World. Code and video results are available at https://nicklashansen.github.io/td-mpc.
研究の動機と目的
- サンプル効率と長期性能を改善するために、モデルベースの計画とモデルフリー学習の組み合わせを動機づける。
- 報酬から学習された潜在ダイナミクスモデルと TD 学習による終端価値関数を用いたデータ駆動の MPC フレームワークを開発。
- TOLD(タスク指向潜在ダイナミクス)モデルを提案し、バイアスを減らすために無関係な環境要素のモデリングを回避。
- 状態ベースおよび画像ベースの観測の両方で、DMControl および Meta-World タスクの性能向上を示す。
提案手法
- 短期軌道の最適化のために、MPC フレームワーク内で MPPI(Model Predictive Path Integral)プランニングを用いる。
- 潜在ダイナミクスモデル d_theta と報酬 R_theta、さらに終端価値関数 Q_theta を学習し、TD 学習で端から端まで訓練する。
- 潜在空間で予測し、潜在状態整合性損失で正則化するタスク指向潜在ダイナミクス(TOLD)モデルを導入。
- プランニングを指示する方策 pi_theta を取り入れ、TDターゲットのための方策ベースの軌道でサンプリングを増強。
- 報酬予測、価値予測、潜在状態整合性損失を含む結合目的関数を最適化(時間を通じた逆伝搬による)。
実験結果
リサーチクエスチョン
- RQ1TD-MPC は、サンプル効率と漸近性能において、最先端のモデルベースおよびモデルフリーアプローチとどう比較されるか?
- RQ2報酬中心の潜在モデル(TOLD)は、多様な連続制御タスクにおける効果的なマルチタスク学習と転移学習を可能にするか?
- RQ3計画予算とモデル精度が、状態ベースおよび画像ベースの設定で TD-MPC の性能に与える影響は?
主な発見
- TD-MPC は、DMControl および Meta-World タスクの広範な範囲で、優れたサンプル効率と競争力のあるまたは優れた漸近性能を達成する。
- TOLD 潜在ダイナミクスモデルは、報酬予測成分に焦点を当て、潜在状態整合性損失を用いて観測レベルの予測の高コストを回避することで学習効率を改善する。
- 短期の MPPI による計画と学習済み終端価値関数を組み合わせると、高次元のアクション空間(例: ヒューマノイド、犬)でも強い性能を発揮する。
- TD-MPC は画像ベースのタスクへスケールし、モード間で堅牢さを保ち、強力なモデルフリーおよびモデルベースのベースラインに対して競争力のある結果を示す。
- マルチタスクと転移実験は、h_theta の共有表現がタスク間で一般化できる一方で、d_theta はよりタスク特有の挙動を符号化していることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。