QUICK REVIEW

[论文解读] Towards Effective Low-bitwidth Convolutional Neural Networks

Bohan Zhuang, Chunhua Shen|arXiv (Cornell University)|Nov 1, 2017

Advanced Neural Network Applications参考文献 33被引用 22

一句话总结

本文提出了三种有效的训练策略——两阶段优化、渐进式量化和与全精度模型联合训练——使低比特宽度卷积神经网络在同时使用4比特权重和激活值的情况下，能够达到或超越全精度模型的准确率。这些方法显著提升了训练的稳定性和收敛性，在ImageNet和CIFAR-100上实现了最先进性能，且在低精度下准确率下降极小。

ABSTRACT

This paper tackles the problem of training a deep convolutional neural network with both low-precision weights and low-bitwidth activations. Optimizing a low-precision network is very challenging since the training process can easily get trapped in a poor local minima, which results in substantial accuracy loss. To mitigate this problem, we propose three simple-yet-effective approaches to improve the network training. First, we propose to use a two-stage optimization strategy to progressively find good local minima. Specifically, we propose to first optimize a net with quantized weights and then quantized activations. This is in contrast to the traditional methods which optimize them simultaneously. Second, following a similar spirit of the first method, we propose another progressive optimization approach which progressively decreases the bit-width from high-precision to low-precision during the course of training. Third, we adopt a novel learning scheme to jointly train a full-precision model alongside the low-precision one. By doing so, the full-precision model provides hints to guide the low-precision model training. Extensive experiments on various datasets ( i.e., CIFAR-100 and ImageNet) show the effectiveness of the proposed methods. To highlight, using our methods to train a 4-bit precision network leads to no performance decrease in comparison with its full-precision counterpart with standard network architectures ( i.e., AlexNet and ResNet-50).

研究动机与目标

为解决同时使用低精度权重和激活值训练深度CNN所面临的挑战，此类方法常导致陷入较差的局部极小值并造成显著的准确率下降。
通过引入结构化、渐进式的优化策略，提升低比特宽度网络的训练稳定性和收敛性。
利用全精度模型的知识来指导低精度模型的训练，从而改善梯度流动性和模型泛化能力。
开发可扩展的端到端训练方法，适用于AlexNet和ResNet-50等多样化网络架构。

提出的方法

提出两阶段优化策略：首先仅对权重进行量化训练，然后在第二阶段对激活值也进行量化微调，将第一阶段的解作为更好的初始化。
引入渐进式量化，即在训练过程中逐步降低比特宽度（例如，32位 → 8位 → 4位 → 2位），从而实现向低精度解的平滑收敛。
提出从零开始联合训练一个低精度网络和一个全精度对应模型，实现相互的知识蒸馏并改善梯度信号。
采用一种新颖的引导训练方案，通过全精度模型提供特征或概率蒸馏的监督，从而在无需预训练的情况下改善优化过程。
使用标准量化函数并结合直通估计器，但通过所提出的渐进式和联合学习机制显著提升训练稳定性。
在标准架构（AlexNet、ResNet-50）上端到端应用这些方法，无需逐层微调，确保可扩展至更深的网络。

实验结果

研究问题

RQ1两阶段训练流程（先量化权重，再量化激活值）是否能改善低比特宽度CNN的收敛性和准确率？
RQ2在训练过程中从高精度逐步降低比特宽度至目标低精度，是否能带来更好的最终性能？
RQ3在无需预训练的情况下，联合训练低精度网络与全精度对应模型是否能改善优化和泛化能力？
RQ4与现有方法相比，这些方法在ResNet-50等深度网络上的可扩展性和性能表现如何？

主要发现

采用所提出的两阶段优化策略后，ImageNet上的2比特ResNet-50在验证准确率上优于基线模型，其中第一阶段损失极小，第二阶段始终优于基线。
在AlexNet上，从32位渐进量化至2位，相比2位基线模型，top-1准确率相对提升了1.5%，尽管从4位降至2位时准确率出现显著下降。
引导训练策略在所有设置中均一致地提升了基线性能，且全精度模型也从联合优化中获益。
将渐进式量化、两阶段训练和引导训练相结合（PQ+TS+Guided）取得了最佳性能，优于所有单一组件。
在ImageNet上，使用所提方法训练的4比特网络在top-1准确率上超过了其32比特全精度对应模型，证明了在低精度下达到最先进性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。