[论文解读] Towards Effective Low-bitwidth Convolutional Neural Networks
本文提出了三种有效的训练策略——两阶段优化、渐进式量化和与全精度模型联合训练——使低比特宽度卷积神经网络在同时使用4比特权重和激活值的情况下,能够达到或超越全精度模型的准确率。这些方法显著提升了训练的稳定性和收敛性,在ImageNet和CIFAR-100上实现了最先进性能,且在低精度下准确率下降极小。
This paper tackles the problem of training a deep convolutional neural network with both low-precision weights and low-bitwidth activations. Optimizing a low-precision network is very challenging since the training process can easily get trapped in a poor local minima, which results in substantial accuracy loss. To mitigate this problem, we propose three simple-yet-effective approaches to improve the network training. First, we propose to use a two-stage optimization strategy to progressively find good local minima. Specifically, we propose to first optimize a net with quantized weights and then quantized activations. This is in contrast to the traditional methods which optimize them simultaneously. Second, following a similar spirit of the first method, we propose another progressive optimization approach which progressively decreases the bit-width from high-precision to low-precision during the course of training. Third, we adopt a novel learning scheme to jointly train a full-precision model alongside the low-precision one. By doing so, the full-precision model provides hints to guide the low-precision model training. Extensive experiments on various datasets ( i.e., CIFAR-100 and ImageNet) show the effectiveness of the proposed methods. To highlight, using our methods to train a 4-bit precision network leads to no performance decrease in comparison with its full-precision counterpart with standard network architectures ( i.e., AlexNet and ResNet-50).
研究动机与目标
- 为解决同时使用低精度权重和激活值训练深度CNN所面临的挑战,此类方法常导致陷入较差的局部极小值并造成显著的准确率下降。
- 通过引入结构化、渐进式的优化策略,提升低比特宽度网络的训练稳定性和收敛性。
- 利用全精度模型的知识来指导低精度模型的训练,从而改善梯度流动性和模型泛化能力。
- 开发可扩展的端到端训练方法,适用于AlexNet和ResNet-50等多样化网络架构。
提出的方法
- 提出两阶段优化策略:首先仅对权重进行量化训练,然后在第二阶段对激活值也进行量化微调,将第一阶段的解作为更好的初始化。
- 引入渐进式量化,即在训练过程中逐步降低比特宽度(例如,32位 → 8位 → 4位 → 2位),从而实现向低精度解的平滑收敛。
- 提出从零开始联合训练一个低精度网络和一个全精度对应模型,实现相互的知识蒸馏并改善梯度信号。
- 采用一种新颖的引导训练方案,通过全精度模型提供特征或概率蒸馏的监督,从而在无需预训练的情况下改善优化过程。
- 使用标准量化函数并结合直通估计器,但通过所提出的渐进式和联合学习机制显著提升训练稳定性。
- 在标准架构(AlexNet、ResNet-50)上端到端应用这些方法,无需逐层微调,确保可扩展至更深的网络。
实验结果
研究问题
- RQ1两阶段训练流程(先量化权重,再量化激活值)是否能改善低比特宽度CNN的收敛性和准确率?
- RQ2在训练过程中从高精度逐步降低比特宽度至目标低精度,是否能带来更好的最终性能?
- RQ3在无需预训练的情况下,联合训练低精度网络与全精度对应模型是否能改善优化和泛化能力?
- RQ4与现有方法相比,这些方法在ResNet-50等深度网络上的可扩展性和性能表现如何?
主要发现
- 采用所提出的两阶段优化策略后,ImageNet上的2比特ResNet-50在验证准确率上优于基线模型,其中第一阶段损失极小,第二阶段始终优于基线。
- 在AlexNet上,从32位渐进量化至2位,相比2位基线模型,top-1准确率相对提升了1.5%,尽管从4位降至2位时准确率出现显著下降。
- 引导训练策略在所有设置中均一致地提升了基线性能,且全精度模型也从联合优化中获益。
- 将渐进式量化、两阶段训练和引导训练相结合(PQ+TS+Guided)取得了最佳性能,优于所有单一组件。
- 在ImageNet上,使用所提方法训练的4比特网络在top-1准确率上超过了其32比特全精度对应模型,证明了在低精度下达到最先进性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。