Skip to main content
QUICK REVIEW

[論文レビュー] DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation

Zebin Yang, Yijiahao Qi|arXiv (Cornell University)|Feb 26, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

DySL-VLAは、事前後のガイダンスとスキップ対応蒸留を活用して、重要なアクションを保持しつつ非クリティカル層を動的にスキップすることで、ロボット操作のVision-Language-Actionモデルを高速化します。

ABSTRACT

Vision-Language-Action (VLA) models have shown remarkable success in robotic tasks like manipulation by fusing a language model's reasoning with a vision model's 3D understanding. However, their high computational cost remains a major obstacle for real-world applications that require real-time performance. We observe that the actions within a task have varying levels of importance: critical steps demand high precision, while less important ones can tolerate more variance. Leveraging this insight, we propose DySL-VLA, a novel framework that addresses computational cost by dynamically skipping VLA layers based on each action's importance. DySL-VLA categorizes its layers into two types: informative layers, which are consistently executed, and incremental layers, which can be selectively skipped. To intelligently skip layers without sacrificing accuracy, we invent a prior-post skipping guidance mechanism to determine when to initiate layer-skipping. We also propose a skip-aware two-stage knowledge distillation algorithm to efficiently train a standard VLA into a DySL-VLA. Our experiments indicate that DySL-VLA achieves 2.1% improvement in success length over Deer-VLA on the Calvin dataset, while simultaneously reducing trainable parameters by a factor of 85.7 and providing a 3.75x speedup relative to the RoboFlamingo baseline at iso-accuracy. Our code is available on https://github.com/PKU-SEC-Lab/DYSL_VLA.

研究の動機と目的

  • VLAモデルで重要なアクション精度を損なうことなく計算量を削減する動機づけ。
  • VLA予測全体で層の重要性とアクション重要性のばらつきを特定する。
  • 有益な層を保持し、他をスキップする動的-静的なレイヤースキッピングを提案する。
  • レイヤーをスキップすべき時を決定するための prior-post スキップガイダンスを導入する。
  • 軽量なスキッピングコンポーネントを訓練するためのスキップ対応二段階知識蒸留を開発する。

提案手法

  • 静的(情報量が多い)層と動的(スキップ可能)層にVLAの層を分類し、速度を最大化し情報損失を最小化する。
  • 事前スキップ予測と事後スキップ検証を用いてスキップ決定を決定・検証する。
  • アクションの連続性に基づく prior-post スキップガイダンスを導入してスキップが発生する時を誘導する。
  • 動的層を要約するアダプタの訓練を先行させ、その後コントローラとアダプタを一緒に訓練するスキップ対応の二段階知識蒸留を提案する。
  • LLMのバックボーンを凍結して訓練コストを削減し、軽量なスキッピングコントローラとアダプタのみを訓練する。
Figure 1. Different actions in robot manipulation have different importance. We show an example when the robot is performing task “Grasp the black cup and drop it into basket”. (a) shows the task completion rates when adding noise with different magnitudes to VLA model weights at different action st
Figure 1. Different actions in robot manipulation have different importance. We show an example when the robot is performing task “Grasp the black cup and drop it into basket”. (a) shows the task completion rates when adding noise with different magnitudes to VLA model weights at different action st

実験結果

リサーチクエスチョン

  • RQ1VLAモデルにおけるアクション重要性に合わせた層スキッピングをどのように設計し、重要なタスクアクションを犠牲にせず速度を最大化できるか。
  • RQ2動的-静的層スキッピングは、推論レイテンシと訓練コストを大幅に削減しつつ精度を維持できるか。
  • RQ3VLAプランナーにおけるスキップ決定を効果的に導く仕組み(事前スキップ、事後スキップ、軌道連続性)は何か。
  • RQ4スキップ対応二段階蒸留は訓練の収束を改善し、データセット間の一般化を維持できるか。

主な発見

  • DySL-VLAはCalvin D→DでDeeR-VLAに対して成功長の平均で2.1%の改善を達成。
  • DySL-VLAは訓練可能パラメータを85.7×削減し、訓練ステップを13.7×低減。
  • DySL-VLAは同等の精度でRoboFlamingoに対して最大3.75×のレイテンシ削減を達成。
  • 評価データセットにおいてFlexiDepthより平均成功長を54.5%向上。
  • アブレーション研究により、事前スキップ予測、事後スキップ検証、および動的-静的スキッピングが推論を高速化しつつ精度を維持するうえで重要であることが示された。
Figure 2. VLA model architecture.
Figure 2. VLA model architecture.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。