[논문 리뷰] DySL-VLA: Efficient Vision-Language-Action Model Inference via Dynamic-Static Layer-Skipping for Robot Manipulation
DySL-VLA가 prior-post guidance 및 skip-aware distillation을 활용하여 중요한 동작을 보존하면서 비-critical 계층을 동적으로 건너뛰어 로봇 조작을 위한 Vision-Language-Action 모델을 가속합니다.
Vision-Language-Action (VLA) models have shown remarkable success in robotic tasks like manipulation by fusing a language model's reasoning with a vision model's 3D understanding. However, their high computational cost remains a major obstacle for real-world applications that require real-time performance. We observe that the actions within a task have varying levels of importance: critical steps demand high precision, while less important ones can tolerate more variance. Leveraging this insight, we propose DySL-VLA, a novel framework that addresses computational cost by dynamically skipping VLA layers based on each action's importance. DySL-VLA categorizes its layers into two types: informative layers, which are consistently executed, and incremental layers, which can be selectively skipped. To intelligently skip layers without sacrificing accuracy, we invent a prior-post skipping guidance mechanism to determine when to initiate layer-skipping. We also propose a skip-aware two-stage knowledge distillation algorithm to efficiently train a standard VLA into a DySL-VLA. Our experiments indicate that DySL-VLA achieves 2.1% improvement in success length over Deer-VLA on the Calvin dataset, while simultaneously reducing trainable parameters by a factor of 85.7 and providing a 3.75x speedup relative to the RoboFlamingo baseline at iso-accuracy. Our code is available on https://github.com/PKU-SEC-Lab/DYSL_VLA.
연구 동기 및 목표
- 중요한 동작 정확도를 해치지 않으면서 VLA 모델의 계산량 감소를 추진한다.
- VLA 예측 전반에서 계층 중요성과 동작 중요도의 가변성을 식별한다.
- 정보를 유지하는 계층은 남겨두고 다른 계층을 건너뛰는 동적-정적 계층 건너뛰기를 제안한다.
- 계층을 언제 건너뛸지 결정하기 위한 prior-post 건너뛰기 지침을 도입한다.
- 경량화된 건너뛰기 구성요소를 학습시키기 위해 skip-aware 이중 단계 지식 증류를 개발한다.
제안 방법
- VLA 계층을 static (정보를 제공하는) 과 dynamic (건너뛸 수 있는)으로 분류하여 속도를 극대화하고 정보 손실을 최소화한다.
- 선건너뛰기 예측(pre-skip)과 후건너뛰기 검증(post-skip)을 사용하여 건너뛰기 결정을 결정하고 검증한다.
- 동작 연속성에 기반한 prior-post 건너뛰기 지침을 도입하여 언제 건너뛸지 가이드한다.
- 먼저 dynamic 계층을 요약하기 위해 어댑터를 학습시키고, 그런 다음 컨트롤러와 어댑터를 함께 학습시키는 skip-aware 이중 단계 지식 증류를 제안한다.
- 학습 비용을 줄이기 위해 경량 건너뛰기 컨트롤러와 어댑터만 훈련시키고 LLM 백본은 고정한다.

실험 결과
연구 질문
- RQ1VLA 모델에서 계층 건너뛰기를 중요 작업의 동작 중요도에 맞게 조정하여 속도를 극대화하고 중요한 작업 동작 손실을 방지할 수 있는가?
- RQ2동적-정적 계층 건너뛰기가 추론 대기시간과 학습 비용을 크게 줄이면서 정확도를 유지할 수 있는가?
- RQ3사전-건너뛰기(pre-skip), 사후-건너뛰기(post-skip), 궤적 연속성(trajectory continuity) 중 어떤 메커니즘이 VLA 플래너에서 건너뛰기 결정을 효과적으로 이끄는가?
- RQ4skip-aware 이중 단계 증류가 학습 수렴을 개선하고 데이터셋 간 일반화를 유지하는가?
주요 결과
- DySL-VLA는 Calvin D→D에서 DeeR-VLA 대비 평균 성공 길이에서 2.1% 향상을 달성한다.
- DySL-VLA는 학습 가능한 매개변수를 85.7배 감소시키고 학습 스텝을 13.7배 감소시킨다.
- DySL-VLA는 iso-accuracy에서 RoboFlamingo 대비 최대 3.75×의 latency 감소를 달성한다.
- DySL-VLA는 평가된 데이터세트에서 FlexiDepth에 비해 평균 성공 길이를 54.5% 향상시킨다.
- 특성 제거 실험에서 pre-skip 예측, post-skip 검증 및 dynamic-static 건너뛰기가 추론 속도를 높이면서 정확도 유지에 결정적임을 보인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.