Skip to main content
QUICK REVIEW

[論文レビュー] VGAS: Value-Guided Action-Chunk Selection for Few-Shot Vision-Language-Action Adaptation

Changhua Xu, Jie Lu|arXiv (Cornell University)|Feb 7, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

VGASはfew-shot Vision-Language-Action適応をgenerate-then-select問題へ再構成し、TransformerベースのQ-Chunk-Former批評家とExplicit Geometric Regularizationを用いてアクションチャンクを長期的成功と幾何学的実現可能性でランク付けし、ロバスト性を向上させる。

ABSTRACT

Vision--Language--Action (VLA) models bridge multimodal reasoning with physical control, but adapting them to new tasks with scarce demonstrations remains unreliable. While fine-tuned VLA policies often produce semantically plausible trajectories, failures often arise from unresolved geometric ambiguities, where near-miss action candidates lead to divergent execution outcomes under limited supervision. We study few-shot VLA adaptation from a \emph{generation--selection} perspective and propose a novel framework extbf{VGAS} ( extbf{V}alue- extbf{G}uided extbf{A}ction-chunk extbf{S}election). It performs inference-time best-of-$N$ selection to identify action chunks that are both semantically faithful and geometrically precise. Specifically, extbf{VGAS} employs a finetuned VLA as a high-recall proposal generator and introduces the extrm{Q-Chunk-Former}, a geometrically grounded Transformer critic to resolve fine-grained geometric ambiguities. In addition, we propose extit{Explicit Geometric Regularization} ( exttt{EGR}), which explicitly shapes a discriminative value landscape to preserve action ranking resolution among near-miss candidates while mitigating value instability under scarce supervision. Experiments and theoretical analysis demonstrate that extbf{VGAS} consistently improves success rates and robustness under limited demonstrations and distribution shifts. Our code is available at https://github.com/Jyugo-15/VGAS.

研究の動機と目的

  • scarce demonstrationsの下でVision-Language-Action (VLA)ポリシーの堅牢なfew-shot適応を動機付ける。
  • エンドツーエンドの尤度ベース生成からgenerate-then-selectパラダイムへシフトし、価値ベースの批評家を用いる。
  • 細粒度の幾何学的手掛かりを保持する幾何学的に基づく批評家(Q-Chunk-Former)を開発する。
  • Explicit Geometric Regularization (EGR)を提案し、希少な監視と分布シフト下でのランキング解像度を維持する。

提案手法

  • VGASを提案:generate-then-select、再高リコール基底ポリシーπμと高精度のQ批評家Qθを組み合わせる。
  • State-Action Fusion (SAF)モジュールを備えたQ-Chunk-Formerを導入し、マルチモーダル融合前に proprioceptionでアクションチャンクを地固めする。
  • Best-of-N選択と整合する時間的一貫性のためにchunked Expected-Maxバックアップ(TμN)を採用する。
  • Explicit Geometric Regularization (EGR)を追加:Geometric AnchoringとGeometric Rankingを含み、ランキング解像度を維持し価値ランドスケープを較正する。
  • LTD(chunked TD損失)とL(EGR)の組み合わせで訓練し、安定性のためにターゲットネットワークを使用する。
Figure 1 : Illustration of near-miss actions distribution under 5-shot VLA fine-tuning.
Figure 1 : Illustration of near-miss actions distribution under 5-shot VLA fine-tuning.

実験結果

リサーチクエスチョン

  • RQ1RQ1: 高次元のVLA観測をタイム的に拡張されたアクションチャンクの正確な価値推定に grounding できる批評家アーキテクチャは何か?
  • RQ2RQ2: 想像が多いデモンストレーションデータで価値関数を訓練し、監督が乏しい状況と分布シフト下で高いランキング解像度を維持するにはどうするか?

主な発見

  • VGASはLIBEROベンチマークでSFTおよび標準的なオフラインRLベースラインを上回り、特に分布シフト下で優位性を示す。
  • アブレーションではExplicit Geometric Regularization (EGR)が最大の利得を提供し、時間的一貫性(TD)が安定化に寄与する。
  • SAFを備えたトランスフォーマー型のQ-Chunk-FormerはMLPベースの批評家より優れており、細粒度 multimodal幾何 groundingの必要性を浮き彫りにする。
  • EGRは価値ランドスケープの崩壊を抑制し、Best-of-N選択に不可欠なミス直前の識別を保持する。
  • chunked TD目的関数による時間的一貫性は長期的な価値推定を安定化させるのに必要である。
Figure 2 : The overall framework of VGAS . Generation: A fine-tuned VLA policy proposes $N$ candidate action chunks from multimodal inputs. Selection: Q-Chunk-Former learns a scoring function $Q$ via the EGR + TD objective. Best-of- $N$ selection defines the induced policy $\pi_{\mu,Q}^{(N)}$ by max
Figure 2 : The overall framework of VGAS . Generation: A fine-tuned VLA policy proposes $N$ candidate action chunks from multimodal inputs. Selection: Q-Chunk-Former learns a scoring function $Q$ via the EGR + TD objective. Best-of- $N$ selection defines the induced policy $\pi_{\mu,Q}^{(N)}$ by max

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。