[论文解读] QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models
QuantVLA 引入了一个训练无关的后训练量化框架,用于 Vision-Language-Action 模型,配合 Diffusion Transformer 动作头。它采用选择性量化布局与轻量级标定,在显著节省内存的同时,在 VLA 任务上达到或超越全精度基线。
Vision-language-action (VLA) models unify perception, language, and control for embodied agents but face significant challenges in practical deployment due to rapidly increasing compute and memory demands, especially as models scale to longer horizons and larger backbones. To address these bottlenecks, we introduce QuantVLA, a training-free post-training quantization (PTQ) framework that, to our knowledge, is the first PTQ approach for VLA systems and the first to successfully quantize a diffusion transformer (DiT) action head. QuantVLA incorporates three scale-calibrated components: (1) a selective quantization layout that integerizes all linear layers in both the language backbone and the DiT while keeping attention projections in floating point to preserve the original operator schedule; (2) attention temperature matching, a lightweight per-head scaling mechanism that stabilizes attention logits and is folded into the dequantization scales at inference; and (3) output head balancing, a per-layer residual interface calibration that mitigates post-projection energy drift. The framework requires no additional training, uses only a small unlabeled calibration buffer, and supports integer kernels for low-bit weights and activations while leaving the architecture unchanged. Across representative VLA models on LIBERO, QuantVLA exceeds the task success rates of full-precision baselines, achieves about 70% relative memory savings on the quantized components, providing a practical pathway toward scalable low-bit embodied intelligence under strict compute, memory, and power constraints.
研究动机与目标
- 分析带有 Diffusion Transformer 动作头的 Vision-Language-Action 模型的量化敏感性。
- 提出 QuantVLA,一种带有选择性量化布局和轻量级标定的零训练 PTQ 框架,以稳定低比特推理。
- 在 LIBERO 基准的 OpenPI 0.5 与 GR00T N1.5 上展示内存节省与具有竞争力或更优的任务性能。
- 展示 QuantVLA 在不同精度水平和任务设置中的鲁棒性与泛化性。
提出的方法
- 采用选择性量化布局:将语言模型和 DiT MLP 的所有线性层进行整数化,而保留注意力投影(Q、K、V、O)为浮点。
- 引入受 DuQuant 启发的重参数化,以提升线性层在低比特下的鲁棒性。
- 引入注意力温度匹配(ATM),在语言–动作接口对每个头部设定标量以对齐 logits 分布。
- 引入输出头平衡(OHB),在每层设定标量以恢复投影后能量并稳定残差路径。
- 从一个小的无标记标定缓存中标定 ATM 和 OHB,并将标量折叠入反量化尺度中,但不改变算子调度。
- 保持原有架构、无需训练,并为许多组件启用低比特整数核。
实验结果
研究问题
- RQ1量化扰动在与 DiT 动作头紧密耦合的 VLA 堆栈中如何传播?
- RQ2零训练 PTQ 框架能否在低比特量化下同时稳定语言骨干与基于扩散的动作头?
- RQ3在不重新训练的情况下,VLA 模型可实现的内存节省程度如何,且与全精度基线相比精度如何?
- RQ4ATM 与 OHB 的标定是否能在 LIBERO 的不同 VLA 模型与任务上泛化?
主要发现
- QuantVLA 在量化组件上相比基线 FP16 模型实现约70%的相对内存节省。
- QuantVLA 在评估的 LIBERO 任务上达到或超过全精度基线的任务成功率。
- 在 OpenPI 0.5 上,QuantVLA 的平均成功率为 97.6%,内存从 4.27 GB 降至 1.28 GB。
- 在 GR00T N1.5 上,QuantVLA 的平均成功率为 88.0%,内存从 2.02 GB 降至 0.91 GB。
- 标定 ATM 和 OHB 可恢复 logits 统计与投影后能量,在不增加额外计算开销的前提下稳定低比特推理。
- QuantVLA 即使在更低比特宽度下也保持较强性能(如在 OpenPI 0.5 的 W4A4 下平均 95.3%),并在降噪步骤中表现出鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。