[论文解读] Evaluating Quantized Large Language Models
本论文全面评估后训练量化对权重、激活与 KV 缓存的影响,覆盖11种LLM家族(125M–180B),涵盖基础NLP、涌现能力、可信性、对话以及长上下文任务,以指导实际量化选择。
Post-training quantization (PTQ) has emerged as a promising technique to reduce the cost of large language models (LLMs). Specifically, PTQ can effectively mitigate memory consumption and reduce computational overhead in LLMs. To meet the requirements of both high efficiency and performance across diverse scenarios, a comprehensive evaluation of quantized LLMs is essential to guide the selection of quantization methods. This paper presents a thorough evaluation of these factors by evaluating the effect of PTQ on Weight, Activation, and KV Cache on 11 model families, including OPT, LLaMA2, Falcon, Bloomz, Mistral, ChatGLM, Vicuna, LongChat, StableLM, Gemma, and Mamba, with parameters ranging from 125M to 180B. The evaluation encompasses five types of tasks: basic NLP, emergent ability, trustworthiness, dialogue, and long-context tasks. Moreover, we also evaluate the state-of-the-art (SOTA) quantization methods to demonstrate their applicability. Based on the extensive experiments, we systematically summarize the effect of quantization, provide recommendations to apply quantization techniques, and point out future directions. The code can be found in https://github.com/thu-nics/qllm-eval.
研究动机与目标
- 评估 PTQ 在广泛的 LLM 和任务类型范围内对权重、激活和 KV 缓存张量的影响。
- 表征张量类型、模型大小和任务类型如何影响量化容忍度。
- 就不同场景提供有关比特宽度和量化策略的实际建议。
- 比较最先进的量化方法并指出未来研究的开放方向。
提出的方法
- 评估三种 PTQ 类型:仅权重、权重-激活和 KV 缓存量化。
- 对权重和 K/V 使用非对称分组量化,对激活使用对称逐-token 量化,采用多种比特宽度(如 W2–W8、KV2–KV8)。
- 以不同粒度对张量进行量化,并在不同模型大小下使用 AbsMax、Std 和 Kurtosis 进行分析。
- 在11个模型家族(125M–180B)上进行基准测试,包括 OPT、LLaMA2、Falcon、Bloomz、Mistral、ChatGLM、Vicuna、LongChat、StableLM、Gemma、Mamba。
- 在五种任务类型上进行评估:基础 NLP、涌现能力、可信度、对话和长上下文处理。
- 报告定性趋势并提供建议和局限性。
实验结果
研究问题
- RQ1权重、激活和 KV 缓存的量化如何在不同模型规模和家族中影响性能?
- RQ2对不同比特宽度和量化方案的任务层面和张量层面的敏感性是什么?
- RQ3最先进的量化方法(如 AWQ、SmoothQuant)能否在多样化模型和任务中恢复性能损失?
- RQ4量化选择如何影响涌现能力、对话质量、可信度和长上下文处理?
主要发现
- 模型大小增加对权重和 KV Cache 量化的容忍度,但对激活量化的容忍度降低。
- 激活量化在较大模型中表现出更高的峭度(Kurtosis)和更多异常值,使其比权重/ KV Cache 量化更敏感。
- 大多数模型在许多任务中以 W4、W4A8 和 KV4 保持可接受的性能(损失<2%);W3/W2 在较小模型中尤其显著降级。
- 基于 Mixture of Experts 的扩展(更大模型)并不普遍提高量化容忍度;敏感性可能仍与较小的同类相似。
- 涌现能力,如多步推理和自校准,对量化比对遵循指令和上下文学习更敏感,数学任务尤为易受影响。
- KV 缓存量化对长上下文任务影响更大;仅权重量化也可能降级长上下文性能,一般对长文本 KV8 更合适,KV4 适用于中等长度上下文。
- 对话质量在很大程度上比权重量化更能容忍 KV 缓存量化;极低比特宽度(W2/W4A4)结合 AWQ 或 SmoothQuant 仍可能显著降低对话性能,尽管 WA 量化配合 SmoothQuant 可以在某些情形恢复。
- 长上下文任务对 KV 缓存量化的敏感性更高;对于许多模型,KV8 对短上下文几乎无损,但 KV4 可能在长上下文中造成明显降级。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。