Skip to main content
QUICK REVIEW

[論文レビュー] In-Context Planning with Latent Temporal Abstractions

Baiting Luo, Yunuo Zhang|arXiv (Cornell University)|Feb 21, 2026
Reinforcement Learning in Robotics被引用数 0
ひとこと要約

I-TAPは、学習済み離散潜在時間抽象空間上でのプランニングを通じて文脈内適応とオンライン計画を統合し、テスト時の勾配更新なしで部分観測性と確率的ダイナミクス下の堅牢な意思決定を可能にする。

ABSTRACT

Planning-based reinforcement learning for continuous control is bottlenecked by two practical issues: planning at primitive time scales leads to prohibitive branching and long horizons, while real environments are frequently partially observable and exhibit regime shifts that invalidate stationary, fully observed dynamics assumptions. We introduce I-TAP (In-Context Latent Temporal-Abstraction Planner), an offline RL framework that unifies in-context adaptation with online planning in a learned discrete temporal-abstraction space. From offline trajectories, I-TAP learns an observation-conditioned residual-quantization VAE that compresses each observation-macro-action segment into a coarse-to-fine stack of discrete residual tokens, and a temporal Transformer that autoregressively predicts these token stacks from a short recent history. The resulting sequence model acts simultaneously as a context-conditioned prior over abstract actions and a latent dynamics model. At test time, I-TAP performs Monte Carlo Tree Search directly in token space, using short histories for implicit adaptation without gradient update, and decodes selected token stacks into executable actions. Across deterministic MuJoCo, stochastic MuJoCo with per-episode latent dynamics regimes, and high-dimensional Adroit manipulation, including partially observable variants, I-TAP consistently matches or outperforms strong model-free and model-based offline baselines, demonstrating efficient and robust in-context planning under stochastic dynamics and partial observability.

研究の動機と目的

  • 連続制御のためのオフラインRLにおける計画ボトルネックを、 horizons を短縮し分岐を減らす潜在的時間抽象を導入することで解決する。
  • 歴史に条件づけられた事前分布を通じて観測されない潜在ダイナミクスに対する文脈内適応を可能にする。
  • 潜在トークン空間で動作するオンラインプランナー(MCTS)を統合し、サブオプティマルなオフライデデータを克服する。
  • 観測値とマクロアクションに条件付けられた残差量子化VAEを介して離散潜在表現を学習する。
  • 決定論的および確率的な MuJoCo 環境と高次元 Adroit 操作での頑健性をデモンストレーションする。

提案手法

  • 観測-マクロアクション列を観測条件付き残差量子化VAE(RQ-VAE)で離散化し、深さ-D のトークンスタックを生成する。
  • 短い履歴と現在の観測に条件付けられたトークンスタックを自己回帰的に予測する時系列Transformerを訓練する。
  • 時間と深さにまたがって因子分解する自己回帰モデルを介して、文脈条件付き潜在コードスタック上の潜在事前分布を学習する。
  • 文脈ガイド付き事前分布を用いて潜在トークン空間で直接モンテカルロ木探索を実行し、マクロアクションを選択してからプリミティブアクションへデコードする。
  • 訓練中に高分散リターン(G_t)をマスクして学習を安定化させつつ、文脈内では短期ホライズンリターン(G_t^(L))を保持して regime 識別を行う。
  • テスト時に勾配更新なしで環境と相互作用するために、選択された潜在スタックを実行可能なアクション系列へデコードする。

実験結果

リサーチクエスチョン

  • RQ1学習された離散潜在時間抽象空間上でのプランニングは、部分観測性と潜在ダイナミクスの下でプランニング効率と堅牢性を改善できるのか?
  • RQ2文脈条件付き潜在モデリングとオンラインプランニングは、オフラインのモデルフリーベースおよびモデルベースのベースラインを、確率的で高次元のタスクにおいて上回るのか?
  • RQ3マクロアクションの長さ、文脈サイズ、プランニングホライズン、残差の深さは性能と適応にどのような影響を与えるのか?
  • RQ4 history を介した文脈内適応は、テスト時の勾配更新なしで潜在環境パラメータを推定し、プランニングを導くのに十分か?

主な発見

  • I-TAP は、決定論的および確率的な MuJoCo タスクおよび高次元 Adroit 操作で強力なオフラインRLおよびプランニングベースラインと同等か、それを上回る。
  • 文脈条件付き事前分布を用いた潜在トークン上のプランニングは分岐とホライズンを削減し、文脈内適応を堅牢にする。
  • 深さ-D コードを備えた残差量子化VAEは、ディシクリット表現をスケーラブルに提供し、高次元観測とマクロアクションの復号 fidelity を保つ。
  • 文脈長とプランニングホライズンは性能に体系的な影響を与え、より長い文脈は適応を改善し、より深い前方探索は部分観測性の影響を緩和する。
  • I-TAP は部分観測性(POMDP)設定下でもトップパフォーマンスを維持し、統合プランニングと文脈内適応を欠くベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。