Skip to main content
QUICK REVIEW

[논문 리뷰] QVLA: Not All Channels Are Equal in Vision-Language-Action Model's Quantization

Yuhao Xu, Yantai Yang|arXiv (Cornell University)|2026. 02. 03.
Advanced Neural Network Applications인용 수 0
한 줄 요약

QVLA는 Vision-Language-Action 모델에 대한 액션 중심, 채널별 양자화를 도입하여 LLM/MMLM 기반 양자화 방법을 능가하고 전체 INT8 예산 내에서 가지치기(0-bit)를 가능하게 한다.

ABSTRACT

The advent of Vision-Language-Action (VLA) models represents a significant leap for embodied intelligence, yet their immense computational demands critically hinder deployment on resource-constrained robotic platforms. Intuitively, low-bit quantization is a prevalent and preferred technique for large-scale model compression. However, we find that a systematic analysis of VLA model's quantization is fundamentally lacking. We argue that naively applying uniform-bit quantization from Large Language Models (LLMs) to robotics is flawed, as these methods prioritize passive data fidelity while ignoring how minor action deviations compound into catastrophic task failures. To bridge this gap, we introduce QVLA, the first action-centric quantization framework specifically designed for embodied control. In a sharp departure from the rigid, uniform-bit quantization of LLM-based methods, QVLA introduces a highly granular, channel-wise bit allocation strategy. Its core mechanism is to directly measure the final action-space sensitivity when quantizing each individual channel to various bit-widths. This process yields a precise, per-channel importance metric that guides a global optimization, which elegantly unifies quantization and pruning (0-bit) into a single, cohesive framework. Extensive evaluations on different baselines demonstrate the superiority of our approach. In the LIBERO, the quantization version of OpenVLA-OFT with our method requires only 29.2% of the original model's VRAM while maintaining 98.9% of its original performance and achieving a 1.49x speedup. This translates to a 22.6% performance improvement over the LLM-derived method SmoothQuant. Our work establishes a new, principled foundation for compressing VLA models in robotics, paving the way for deploying powerful, large-scale models on real-world hardware. Code will be released.

연구 동기 및 목표

  • emboddied VLA 모델의 양자화 필요성에 대한 동기 부여: 작은 액션 편차로 인한 작업 실패를 방지
  • 모듈 내 채널별 민감도가 이질적이며 중요한 인터페이스가 성능을 구동한다는 점 보여주기
  • 행동 공간 충실도에 양자화를 맞추고 양자화와 가지치기를统一시키려는 QVLA 제안
  • 채널별 비트 할당을 위한 빠른 민감도 프록시와 탐욕적 강등 알고리즘 개발
  • OpenVLA/OpenVLA-OFT 및 LIBERO 벤치마크에서 LLM/MMLM 유도 양자화 방법과 QVLA 비교 평가

제안 방법

  • 개별 채널을 {0,2,4,8,16} 비트로 양자화하고 행동 공간 오차를 측정하여 채널별 민감도 정량화
  • 행동 공간에서 평가를 guide하기 위한 단일 단계 Action-MSE 및 누적 작업 정확도(metrics) 정의
  • 쟈코비안(Jacobians)을 사용한 1차 테일러 기반 민감도 프록시를 계산하여 채널 중요도 효율적으로 정렬
  • 대상 평균 예산 아래의 per-channel 비트 폭 할당을 위해 16비트에서 시작하여 가장 민감도가 낮은 채널을 점진적으로 낮추는 탐욕적 강등 알고리즘 사용
  • 안정성을 위한 균일 비트 활성화 및 하드웨어 효율성을 위한 행(row)당 가중치 저장 방식과 함께 채널별 가중치 양자화
  • 채널별 양자화가 계층별 또는 균일 비트 스킴보다 행동 충실도와 안정성을 더 낫게 만들며 가지치기를 0비트 채널로 처리함을 검증

실험 결과

연구 질문

  • RQ1QVLA가 표준 LLM/MMLM 양자화 접근법에 비해 VLA 모델의 행동 출력에 어떤 영향을 미치는가?
  • RQ2채널별, 행동 공간 기반 민감도를 효과적으로 추정하고 로봇 공학 실시간 추론에 비트를 할당하는 데 사용할 수 있는가?
  • RQ3OpenVLA/OpenVLA-OFT 및 LIBERO 벤치마크에서 채널별 혼합 정밀도 양자화와 가지치기가 균일 또는 계층별 스킴보다 우수한가?
  • RQ4리소스 제약 로봇 하드웨어에서 QVLA를 적용할 때 메모리 크기, 속도, 작업 성능 간의 트레이드오프는 무엇인가?

주요 결과

  • 채널별 양자화가 레이어 내 이질성을 강하게 드러내며, 프로젝터와 액션 헤드가 양자화 교란에 가장 민감함
  • 단일 단계의 행동 공간 민감도 순위가 누적 메트릭으로 검증된 장기 관측 성능과 일치
  • QVLA의 채널별 비트 할당과 가지치기는 LLM/MMLM 유도 방법(SmoothQuant, OmniQuant)보다 더 낮은 메모리에서 더 빠른 속도로 더 높은 정확도를 달성
  • OpenVLA/OpenVLA-OFT에서 QVLA는 원래 대비 VRAM을 대폭 감소(약 29.2%)하고 최대 1.49x 속도 향상으로 유사하거나 더 나은 작업 성능을 달성; 평균 성능 저하가 많은 설정에서 거의 제로에 가까움
  • INT8 예산 하에서 가지치기가 있는 채널별 양자화는 FP 성능과 맞먹거나 초과하는 반면, 계층별 양자화는 정확도가 감소
  • 실험적 결과는 가지치기가 있는 채널별 게이팅이 전반적 INT8 예산 하에서 균일 비트 양자화보다 우수하다는 것을 보여주며, 특히 장기 관찰 작업에서 그렇다

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.