[论文解读] Improving Neural Network Quantization using Outlier Channel Splitting
本文提出了一种名为异常通道拆分(Outlier Channel Splitting, OCS)的技术,该技术通过复制具有极端权重值的通道、将其权重幅度减半,并将它们重新分配,从而在不微调的情况下减少量化误差。OCS 在 ImageNet 和语言建模任务上提升了量化模型的准确率,相较于最先进的裁剪方法表现更优,且在通用硬件上计算开销极低。
Quantization can improve the execution latency and energy efficiency of neural networks on both commodity GPUs and specialized accelerators. The majority of existing literature focuses on training quantized DNNs, while this work examines the less-studied topic of quantizing a floating-point model without (re)training. DNN weights and activations follow a bell-shaped distribution post-training, while practical hardware uses a linear quantization grid. This leads to challenges in dealing with outliers in the distribution. Prior work has addressed this by clipping the outliers or using specialized hardware. In this work, we propose outlier channel splitting (OCS), which duplicates channels containing outliers, then halves the channel values. The network remains functionally identical, but affected outliers are moved toward the center of the distribution. OCS requires no additional training and works on commodity hardware. Experimental evaluation on ImageNet classification and language modeling shows that OCS can outperform state-of-the-art clipping techniques with only minor overhead.
研究动机与目标
- 为解决在不微调的情况下量化预训练深度神经网络的挑战,特别是由于权重和激活分布中的异常值所致的问题。
- 通过减轻与线性量化网格不匹配的极端值的影响,提升在通用硬件上的量化准确率。
- 开发一种在不依赖专用硬件或额外训练的情况下,保持模型功能同时减少由异常值引起的量化误差的方法。
- 在 ImageNet 分类和语言建模等标准基准上评估 OCS 的有效性。
提出的方法
- OCS 识别预训练神经网络中权重包含显著偏离中心分布的异常值的通道。
- 对于每个异常通道,该方法复制该通道,并将复制副本中权重的幅度减半。
- 原始通道与复制通道以保持整体网络功能的方式合并,从而有效将异常值向分布中心移动。
- 这种重新分配减少了线性量化网格与权重和激活的偏斜、钟形分布不匹配所引入的量化误差。
- 该技术在推理后应用,无需微调或重新训练,因此与现有推理流水线兼容。
- 该方法在标准硬件上高效实现,仅带来轻微的模型尺寸和推理成本增加。
实验结果
研究问题
- RQ1一种后训练量化方法是否能在不微调或使用专用硬件的情况下减少由异常权重引起的量化误差?
- RQ2在标准基准上,OCS 与现有基于裁剪的量化技术相比,在准确率和效率方面表现如何?
- RQ3OCS 在量化后对 ImageNet 分类和语言建模任务的模型准确率提升程度如何?
- RQ4尽管权重分布发生变化,OCS 在异常通道拆分后是否仍能保持网络的功能等价性?
主要发现
- 在 ImageNet 分类任务的 top-1 准确率方面,OCS 优于最先进的基于裁剪的量化技术。
- 该方法在语言建模任务上的准确率也高于裁剪方法,证明了其在多种模型类型中的有效性。
- OCS 仅带来轻微的模型尺寸和推理成本增加,使其在通用硬件上具有实际部署可行性。
- 量化后,该技术保持了与原始模型的功能等价性,因为尽管权重被重新分配,网络行为保持不变。
- 通过将异常值向分布中心移动,OCS 减少了实际权重分布与线性量化网格之间的不匹配。
- 该改进无需任何微调,凸显了结构修改作为后处理量化策略的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。