Skip to main content
QUICK REVIEW

[논문 리뷰] DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation

Zebin Yang, Yijiahao Qi|arXiv (Cornell University)|2026. 02. 26.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

DySL-VLA가 prior-post guidance 및 skip-aware distillation을 활용하여 중요한 동작을 보존하면서 비-critical 계층을 동적으로 건너뛰어 로봇 조작을 위한 Vision-Language-Action 모델을 가속합니다.

ABSTRACT

Vision-Language-Action (VLA) models have shown remarkable success in robotic tasks like manipulation by fusing a language model's reasoning with a vision model's 3D understanding. However, their high computational cost remains a major obstacle for real-world applications that require real-time performance. We observe that the actions within a task have varying levels of importance: critical steps demand high precision, while less important ones can tolerate more variance. Leveraging this insight, we propose DySL-VLA, a novel framework that addresses computational cost by dynamically skipping VLA layers based on each action's importance. DySL-VLA categorizes its layers into two types: informative layers, which are consistently executed, and incremental layers, which can be selectively skipped. To intelligently skip layers without sacrificing accuracy, we invent a prior-post skipping guidance mechanism to determine when to initiate layer-skipping. We also propose a skip-aware two-stage knowledge distillation algorithm to efficiently train a standard VLA into a DySL-VLA. Our experiments indicate that DySL-VLA achieves 2.1% improvement in success length over Deer-VLA on the Calvin dataset, while simultaneously reducing trainable parameters by a factor of 85.7 and providing a 3.75x speedup relative to the RoboFlamingo baseline at iso-accuracy. Our code is available on https://github.com/PKU-SEC-Lab/DYSL_VLA.

연구 동기 및 목표

  • 중요한 동작 정확도를 해치지 않으면서 VLA 모델의 계산량 감소를 추진한다.
  • VLA 예측 전반에서 계층 중요성과 동작 중요도의 가변성을 식별한다.
  • 정보를 유지하는 계층은 남겨두고 다른 계층을 건너뛰는 동적-정적 계층 건너뛰기를 제안한다.
  • 계층을 언제 건너뛸지 결정하기 위한 prior-post 건너뛰기 지침을 도입한다.
  • 경량화된 건너뛰기 구성요소를 학습시키기 위해 skip-aware 이중 단계 지식 증류를 개발한다.

제안 방법

  • VLA 계층을 static (정보를 제공하는) 과 dynamic (건너뛸 수 있는)으로 분류하여 속도를 극대화하고 정보 손실을 최소화한다.
  • 선건너뛰기 예측(pre-skip)과 후건너뛰기 검증(post-skip)을 사용하여 건너뛰기 결정을 결정하고 검증한다.
  • 동작 연속성에 기반한 prior-post 건너뛰기 지침을 도입하여 언제 건너뛸지 가이드한다.
  • 먼저 dynamic 계층을 요약하기 위해 어댑터를 학습시키고, 그런 다음 컨트롤러와 어댑터를 함께 학습시키는 skip-aware 이중 단계 지식 증류를 제안한다.
  • 학습 비용을 줄이기 위해 경량 건너뛰기 컨트롤러와 어댑터만 훈련시키고 LLM 백본은 고정한다.
Figure 1. Different actions in robot manipulation have different importance. We show an example when the robot is performing task “Grasp the black cup and drop it into basket”. (a) shows the task completion rates when adding noise with different magnitudes to VLA model weights at different action st
Figure 1. Different actions in robot manipulation have different importance. We show an example when the robot is performing task “Grasp the black cup and drop it into basket”. (a) shows the task completion rates when adding noise with different magnitudes to VLA model weights at different action st

실험 결과

연구 질문

  • RQ1VLA 모델에서 계층 건너뛰기를 중요 작업의 동작 중요도에 맞게 조정하여 속도를 극대화하고 중요한 작업 동작 손실을 방지할 수 있는가?
  • RQ2동적-정적 계층 건너뛰기가 추론 대기시간과 학습 비용을 크게 줄이면서 정확도를 유지할 수 있는가?
  • RQ3사전-건너뛰기(pre-skip), 사후-건너뛰기(post-skip), 궤적 연속성(trajectory continuity) 중 어떤 메커니즘이 VLA 플래너에서 건너뛰기 결정을 효과적으로 이끄는가?
  • RQ4skip-aware 이중 단계 증류가 학습 수렴을 개선하고 데이터셋 간 일반화를 유지하는가?

주요 결과

  • DySL-VLA는 Calvin D→D에서 DeeR-VLA 대비 평균 성공 길이에서 2.1% 향상을 달성한다.
  • DySL-VLA는 학습 가능한 매개변수를 85.7배 감소시키고 학습 스텝을 13.7배 감소시킨다.
  • DySL-VLA는 iso-accuracy에서 RoboFlamingo 대비 최대 3.75×의 latency 감소를 달성한다.
  • DySL-VLA는 평가된 데이터세트에서 FlexiDepth에 비해 평균 성공 길이를 54.5% 향상시킨다.
  • 특성 제거 실험에서 pre-skip 예측, post-skip 검증 및 dynamic-static 건너뛰기가 추론 속도를 높이면서 정확도 유지에 결정적임을 보인다.
Figure 2. VLA model architecture.
Figure 2. VLA model architecture.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.