Skip to main content
QUICK REVIEW

[论文解读] TTQ: Activation-Aware Test-Time Quantization to Accelerate LLM Inference On The Fly

Toshiaki Koike-Akino, Jing Liu|arXiv (Cornell University)|Mar 11, 2026
Advanced Neural Network Applications被引用 0
一句话总结

TTQ 在推理时引入在线激活感知量化,以在无离线标定的情况下压缩大语言模型,并在提示鲁棒性方面表现出色,带来加速。它将基于激活统计的 AWQ 与轻量级在线方法相结合,并可选地进行低秩分解以提升量化性能。

ABSTRACT

To tackle the huge computational demand of large foundation models, activation-aware compression techniques without retraining have been introduced. However, since these methods highly rely on calibration data, domain shift issues may arise for unseen downstream tasks. We propose a test-time quantization (TTQ) framework which compresses large models on the fly at inference time to resolve this issue. With an efficient online calibration, instant activation-aware quantization can adapt every prompt regardless of the downstream tasks, yet achieving inference speedup. Several experiments demonstrate that TTQ can improve the quantization performance over state-of-the-art baselines.

研究动机与目标

  • 解决离线激活感知量化在大语言模型中的域偏移与对标定数据的依赖性问题。
  • 开发一个零标定、在线量化框架,在推理时对每个提示进行自适应调整。
  • 整合低秩分解以在保持准确性的前提下进一步加速推理。
  • 在多种大语言模型基准上展示 TTQ 相对于最先进基线的优势。

提出的方法

  • 使用分组 RTN 量化并结合 QDQ 运算在运行时对权重进行量化。
  • 采用激活感知量化(AWQ),通过对角输入协方差近似实现快速闭式解以对权重进行量化。
  • 在推理时通过一个缩放后的协方差 C_lambda 的小型“标定式”过程在线估计激活统计,以最小化 L = E_X|| (W- W_hat) X ||^2。
  • 为避免在测试时进行穷举搜索,将超参数 alpha、lambda、p 固定。
  • 可选地加入动态低秩因子 B 与 A,使 W 可以表示为 W_q + B A,其中 W_q 以在线方式量化。
  • 分析计算开销并给出 TTQ 的开销对于高维度 d'、T 近似为零的结论;复杂度比随 d'、T 增大而趋近 0。
  • 提供基于 CUDA 的 AWQ/GEMM 内核以在 GPU 上加速量化投影。

实验结果

研究问题

  • RQ1在部署时若无法进行标定,TTQ 相对于 AWQ 与 RTN 基线的性能如何?
  • RQ2分组大小 g 如何影响量化质量与困惑度(perplexity),在不同模型和位宽下的表现如何?
  • RQ3TTQ 在极低位宽(2-5 位)下是否仍能在不同的 LLM 上保持高准确性?
  • RQ4将低秩分解与 TTQ 结合是否能在不显著损失准确性的前提下带来额外的加速?

主要发现

  • 在 WT2、PTB 与 C4 基准上,TTQ 搭配在线 AWQ 在标定数据有限或缺失的情况下对困惑度的提升优于离线 AWQ 基线。
  • 分组大小的影响:微观缩放(g < 32)有益,TTQ 相对于 AWQ 能容忍更大的 g,且当 r=16 时,TTQ 常常优于 RTN 且接近 AWQ。
  • 在多模型(从 OPT-125M 到 Gemma-1B)上,TTQ 的 3 位量化在零离线标定数据条件下仍具强劲表现,并且在 5 位时常与未压缩模型的表现相当或接近。
  • 将低秩分解(B A)与 TTQ 结合在某些配置下可实现高达 5x 的加速,且开销适中,因对残差进行量化并利用低秩投影。
  • TTQ 在 OPT、Qwen3、Gemma 模型上对 WT2、PTB、C4 数据集的基线相比有显著改进;零标定 TTQ 相较于 AWQ 在不同标定数据集上的波动性更小。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。