Skip to main content
QUICK REVIEW

[論文レビュー] Self-Correcting VLA: Online Action Refinement via Sparse World Imagination

Chenyv Liu, Wentao Tan|arXiv (Cornell University)|Feb 25, 2026
Reinforcement Learning in Robotics被引用数 0
ひとこと要約

SC-VLA は稀疎な世界想像とオンライン行動 refinement をビジョン-言語-行動制御へ導入し、 ManiSkill ベンチマークと実世界 ARX5 におけるタスクスループットと成功率を最先端に、より少ないステップで達成します。

ABSTRACT

Standard vision-language-action (VLA) models rely on fitting statistical data priors, limiting their robust understanding of underlying physical dynamics. Reinforcement learning enhances physical grounding through exploration yet typically relies on external reward signals that remain isolated from the agent's internal states. World action models have emerged as a promising paradigm that integrates imagination and control to enable predictive planning. However, they rely on implicit context modeling, lacking explicit mechanisms for self-improvement. To solve these problems, we propose Self-Correcting VLA (SC-VLA), which achieve self-improvement by intrinsically guiding action refinement through sparse imagination. We first design sparse world imagination by integrating auxiliary predictive heads to forecast current task progress and future trajectory trends, thereby constraining the policy to encode short-term physical evolution. Then we introduce the online action refinement module to reshape progress-dependent dense rewards, adjusting trajectory orientation based on the predicted sparse future states. Evaluations on challenging robot manipulation tasks from simulation benchmarks and real-world settings demonstrate that SC-VLA achieve state-of-the-art performance, yielding the highest task throughput with 16% fewer steps and a 9% higher success rate than the best-performing baselines, alongside a 14% gain in real-world experiments. Code is available at https://github.com/Kisaragi0/SC-VLA.

研究の動機と目的

  • VLA システムにおける静的 priors を超えた堅牢な物理理解を動機づける。
  • 短期的な物理進化を行動生成前に制約するため疎な世界想像を導入する。
  • imagined futures を用いて密な報酬を再形成するオンライン行動 refinement を開発する。
  • 内発的イマジネーションベースの信号を活用して外部報酬モデルへの依存を排除する。
  • シミュレーションと実世界のロボット操作タスクでの優れた性能を示す。

提案手法

  • 連続行動生成の基礎方策として条件フローマッチングを用いる。
  • タスク進行と短期的な状態変化を予測する疎な世界想像ターゲットを入力に追加する。
  • 進行度 p_t と相対状態変化 Δs_t を予測する補助ヘッドを MSE 損失で学習する(L_prog, L_Δs)。
  • ベース方策の上に残差 RL モジュール(π_res)を統合しオンライン行動 refinement を実行する。
  • 未来状態の予測から密なガイダンス報酬を構築し、タスク進行度に応じて予測ガイダンスの動的重み付けを行う(動的重み付けスケジューリング)。
  • 安定な最適化のためベース方策と残差方策の両方に SAC を採用する。

実験結果

リサーチクエスチョン

  • RQ1SC-VLA は疎な世界想像と残差モジュールでフローマッチング方策の成功率を複雑な操作タスクで改善できるか。
  • RQ2疎な世界想像と動的重み付けスケジューリングから構築された密な報酬は探索効率とスループットを疎報酬下で高めるか。
  • RQ3各想像成分(進行と状態)が性能に与える寄与はどれか。
  • RQ4SC-VLA は実ロボットシステムへ安定に移行し、摂動下で頑健性を維持できるか。

主な発見

  • SC-VLA は最先端のパフォーマンスを達成し、最も高いタスクスループットと困難な操作タスクでの成功率を改善した。 (Abstract)
  • ManiSkill では SC-VLA(SPI, OAR)が最良の性能を達成し、ベースラインと比較して大幅な改善(例:PegInsertion で pretrained モデルと比較して最大 28% の成功率向上)を示した。
  • SC-VLA は評価された手法の中で最短の平均完了長を達成(成功エピソードの平均 157 ステップ)。
  • 実世界 ARX5 実験では SC-VLA(SPI)の平均成功率が 70% に達し、DP および GR00T N1.5 をそれぞれ 43% および 14% 上回った。
  • アブレーション研究は進行ガイダンスと状態ガイダンスの双方が全体性能に重要であること、疎な想像報酬が複雑なタスクでの探索を大きく支援することを示した。
  • 動的重み付けスケジューリングは早期予測ガイダンスと後期の自律的微調整をバランスさせるうえで決定的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。