[论文解读] Accurate and Compact Convolutional Neural Networks with Trained Binarization
本文提出了一种可训练的卷积神经网络二值化方法,通过引入可学习的缩放因子来提升准确率与模型紧凑性,采用高阶和长尾导数近似方法,并对缩放因子直接应用L2正则化。该方法在CIFAR-10上达到92.3%的top-1准确率,在ImageNet上使用ResNet-18达到54.2%,优于以往的二值化网络。
Although convolutional neural networks (CNNs) are now widely used in various computer vision applications, its huge resource demanding on parameter storage and computation makes the deployment on mobile and embedded devices difficult. Recently, binary convolutional neural networks are explored to help alleviate this issue by quantizing both weights and activations with only 1 single bit. However, there may exist a noticeable accuracy degradation when compared with full-precision models. In this paper, we propose an improved training approach towards compact binary CNNs with higher accuracy. Trainable scaling factors for both weights and activations are introduced to increase the value range. These scaling factors will be trained jointly with other parameters via backpropagation. Besides, a specific training algorithm is developed including tight approximation for derivative of discontinuous binarization function and $L_2$ regularization acting on weight scaling factors. With these improvements, the binary CNN achieves 92.3% accuracy on CIFAR-10 with VGG-Small network. On ImageNet, our method also obtains 46.1% top-1 accuracy with AlexNet and 54.2% with Resnet-18 surpassing previous works.
研究动机与目标
- 解决因权重和激活值被极端地量化为1比特而导致二值卷积神经网络(BNNs)准确率下降的问题。
- 通过支持硬件友好的二值运算,在保持高性能的同时提升模型紧凑性与推理速度。
- 通过为权重和激活值引入可学习的缩放因子,克服先前方法(如XNOR-Net)中固定缩放因子的局限性。
- 通过直接对权重缩放因子应用修改后的L2正则化,提升训练稳定性和泛化能力。
- 开发一种实用的训练算法,实现对不连续二值化函数的有效反向传播。
提出的方法
- 为网络权重和激活值引入可学习的缩放因子,将二值滤波器的有效取值范围扩展至超越基于均值的固定缩放。
- 提出对权重二值化函数的高阶导数近似方法,以及对激活值二值化函数的长尾近似方法,以在紧致性和平滑反向传播之间取得平衡。
- 直接对权重缩放因子应用L2正则化,而非原始权重,以提升泛化能力并减少过拟合。
- 通过标准反向传播与网络参数联合训练缩放因子,实现端到端优化。
- 将第一层和最后一层排除在二值化之外,并以全精度保留批量归一化和缩放因子,以维持表征能力。
- 采用紧致近似策略,在保持高准确率的同时实现训练期间稳定的梯度流动。
实验结果
研究问题
- RQ1与基于固定均值的缩放相比,为权重和激活值引入可学习的缩放因子是否能提升二值CNN的准确率?
- RQ2如何有效近似不连续二值化函数的梯度,以实现在二值网络中稳定的反向传播?
- RQ3直接对权重缩放因子应用L2正则化是否能带来更好的泛化能力和更高的测试准确率?
- RQ4在ImageNet等大规模基准测试中,使用该方法训练的二值CNN能在多大程度上缩小与全精度模型之间的准确率差距?
- RQ5该方法是否能在保持标准视觉数据集上竞争力的推理准确率的同时,实现高度的模型压缩?
主要发现
- 所提方法在VGG-Small架构下于CIFAR-10上达到92.3%的top-1准确率,优于以往的二值化网络。
- 在ImageNet上,使用AlexNet达到46.1%的top-1准确率,使用ResNet-18达到54.2%的top-1准确率,较所有先前的二值化网络方法最高提升12.0个百分点。
- 由于在缩放因子上引入了L2正则化,验证准确率曲线比标准BNN更稳定,从而提升了泛化能力。
- AlexNet的模型压缩比达到10.5×,ResNet-18达到14.2×,尽管第一/最后一层和归一化层未被二值化,仍接近理论上的32×极限。
- 在ImageNet上,该方法将全精度模型与二值化模型之间的准确率差距缩小至约10%,相对于全精度基线展现出强劲性能。
- 训练收敛速度更快且更稳定,归因于改进的梯度近似和正则化策略。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。