QUICK REVIEW

[论文解读] RPTQ: Reorder-based Post-training Quantization for Large Language Models

Zhihang Yuan, Lin Niu|arXiv (Cornell University)|Apr 3, 2023

Topic Modeling被引用 20

一句话总结

RPTQ 通过基于重新排序的后训练量化对 LLMs 的激活进行量化，方法是将具有相似数值范围的通道聚类并在簇内进行量化，和层归一化融合、重构权重以避免显式重新排序，从而实现 3-bit 激活量化并显著降低内存占用。

ABSTRACT

Large-scale language models (LLMs) have demonstrated impressive performance, but their deployment presents challenges due to their significant memory usage. This issue can be alleviated through quantization. In this paper, we identify that the challenge in quantizing activations in LLMs arises from varying ranges across channels, rather than solely the presence of outliers. To address this challenge, we introduce a quantization method called RPTQ, which utilizes a reorder-based approach. By rearranging the channels and quantizing them in clusters, RPTQ effectively mitigates the impact of range differences between channels. To minimize the overhead of the reorder operation, we fuse it into the layer norm operation and weights in linear layers. In our experiments, RPTQ achieved a significant breakthrough by utilizing 3-bit activation in LLMs for the first time, resulting in a substantial reduction in memory usage. For instance, quantizing OPT-175b can lead to a memory consumption reduction of up to 80%.

研究动机与目标

推动并解决部署大型语言模型（LLMs）时的内存瓶颈。
研究不仅仅是离群值的问题，而是由每通道范围差异引起的激活量化挑战。
提出一种基于重新排序的 PTQ 方法（RPTQ），在保持实用性的同时减少量化误差。

提出的方法

用 K-means 将激活通道按每通道的最小/最大值聚类成 g 个簇。
对同簇的通道进行分组，以实现重新排序。
在每个簇内使用簇特定的量化参数（尺度 s 和零点 z）对激活进行量化。
将重新排序操作与层归一化融合，避免推理过程中的显式数据移动。
对线性层的权重进行重新排序，使能够直接在分批矩阵乘法中处理重新排序后的激活。
通过在 Q 和 K 之间共享重新排序索引并避免对某些输出（如残差路径）进行重新排序，确保通道对齐，以避免在 Q/K/联合 Attention 计算中的错位。

实验结果

研究问题

RQ1通过将通道按具有相似数值范围聚类，相较于使用按张量/按通道的统一量化，激活量化是否能显著提高 LLMs 的性能？
RQ2在对大型 OPT 模型应用 RPTQ 时，记忆体下降和精度损失的幅度有多大，包括对量化 Key/Value 缓存的替代方案？
RQ3将重新排序与层归一化融合并调整权重矩阵是否能够在低比特宽度（例如 3–4 位）实现可行的推理？
RQ4簇的数量对量化误差和模型性能在不同模型规模上的影响是什么？

主要发现

RPTQ 实现了对 LLMs 的 3-bit 激活量化，并显著降低了内存占用。
对于 OPT-175b，在某些配置（例如 KV 重点量化）下，内存使用量可降低约 80%，而困惑度影响在可接受范围内。
对 Key/Value 缓存(KV)进行低比特激活量化（如 W4A4KV、W3A3KV）在性能上更接近 FP16，相比于对全激活量化。
将通道聚类为较少数量的簇能降低量化误差并提升准确性，消融实验显示簇数量增加时有收益。
在大序列长度和批量大小下，激活量化的内存节省尤为显著，缓解了长文本任务中的缓存内存压力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。