Skip to main content
QUICK REVIEW

[论文解读] SliderQuant: Accurate Post-Training Quantization for LLMs

Shigeng Wang, Chao Li|arXiv (Cornell University)|Mar 26, 2026
Multimodal Machine Learning Applications被引用 0
一句话总结

SliderQuant 引入一个自适应滑动量化框架,对 LLM 的不同层(浅层、中间层、深层)进行差异化量化,以在低比特宽度下改善后训练量化,在权重和权重-激活量化方面超越现有 PTQ 方法,适用于多种模型与任务。

ABSTRACT

In this paper, we address post-training quantization (PTQ) for large language models (LLMs) from an overlooked perspective: given a pre-trained high-precision LLM, the predominant sequential quantization framework treats different layers equally, but this may be not optimal in challenging bit-width settings. We empirically study the quantization impact of different layers on model accuracy, and observe that: (1) shallow/deep layers are usually more sensitive to quantization than intermediate layers; (2) among shallow/deep layers, the most sensitive one is the first/last layer, which exhibits significantly larger quantization error than others. These empirical observations imply that the quantization design for different layers of LLMs is required on multiple levels instead of a single level shared to all layers. Motivated by this, we propose a new PTQ framework termed Sliding-layer Quantization (SliderQuant) that relies on a simple adaptive sliding quantization concept facilitated by few learnable parameters. The base component of SliderQuant is called inter-layer sliding quantization, which incorporates three types of novel sliding window designs tailored for addressing the varying quantization sensitivity of shallow, intermediate and deep layers. The other component is called intra-layer sliding quantization that leverages an incremental strategy to quantize each window. As a result, SliderQuant has a strong ability to reduce quantization errors across layers. Extensive experiments on basic language generation, zero-shot commonsense reasoning and challenging math and code tasks with various LLMs, including Llama/Llama2/Llama3/Qwen2.5 model families, DeepSeek-R1 distilled models and large MoE models, show that our method outperforms existing PTQ methods (including the latest PTQ methods using rotation transformations) for both weight-only quantization and weight-activation quantization.

研究动机与目标

  • 在极限量化(如 4 位)下,说明需要对 LLM 进行分层感知的 PTQ 的必要性。
  • 经验性地刻画浅层、中间层和深层对量化的敏感度差异。
  • 提出包含层间滑动组件和层内滑动组件的 SliderQuant,以降低跨层量化误差。
  • 展示在模型家族(如 Llama、Qwen)、不同规模及任务(生成、常识、数学/代码)中的广泛有效性。
  • 展示兼容权重仅量化和权重-激活量化的 PTQ,包括带旋转变换的变体。

提出的方法

  • 将自适应滑动量化作为固定大小滑动 PTQ 的推广引入。
  • 提出三种窗口设计的层间滑动量化:逐步扩展(浅层)、固定大小(中间层)、逐步收缩(深层)。
  • 在窗口内对层进行层内滑动量化,使用窗口内的增量扩展实现对所有层的逐步量化。
  • 使用可学习参数(通道级缩放系数 alpha、低秩改进 A、B)以及统一量化器,最小化 F(W,X) 与 F(What,X) 之间的均方误差。
  • 将通道缩放 (CS) 与 LoRA 风格的改进相结合,在量化前得到更精细的 W 与 X(方程式 2)。
  • 提供 SliderQuant 及成本更高的变体 SliderQuant+,在推理阶段有旋转变换的增强。

实验结果

研究问题

  • RQ1现代 LLM 中不同层是否对量化呈现出显著敏感性,从而需要分层感知的 PTQ 设计?
  • RQ2自适应滑动窗口是否比固定大小滑动或逐层方法更有效地降低跨层量化误差?
  • RQ3SliderQuant 在权重仅量化和权重-激活量化下在多种模型与任务中的表现如何?
  • RQ4在复杂架构(MoE)和具备思维链的蒸馏模型上,SliderQuant 是否有效?

主要发现

  • SliderQuant 在 WikiText2、C4 等数据集上相较 RTN、GPTQ、OmniQuant、CBQ 等方法,在多种模型与比特宽度(包括 W4A4)下持续降低困惑度。
  • 在常识问答基准测试中,SliderQuant 相对于其他 PTQ 方法提升了平均准确率(例如在 Qwen2.5-14B 与 Llama2-13B 上)。
  • 带旋转变换的 SliderQuant+ 在部分模型与基准上实现了额外推理成本下的最佳结果。
  • 该方法可推广至 MoE 架构(Qwen3-30B-A3B)与 DeepSeek-R1 蒸馏模型,在低比特量化下仍保持较强表现。
  • 在多任务场景下,SliderQuant 在权重仅量化与权重-激活量化下均表现出稳健提升,通常优于加入旋转的基线。
  • 在是否需要额外推理成本方面,该框架保持竞争力,展示对大规模 LLMs 的广泛适用性与可扩展性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。