Skip to main content
QUICK REVIEW

[论文解读] Back to Simplicity: How to Train Accurate BNNs from Scratch?

Joseph Bethge, Haojin Yang|arXiv (Cornell University)|Jun 19, 2019
Advanced Neural Network Applications参考文献 29被引用 44
一句话总结

该论文证明可以使用简单的训练策略和网络设计从头开始训练高精度的二值神经网络,提出 BinaryDenseNet,在 ImageNet 上超过了先前的 1-bit CNNs 且不需要额外的技巧。

ABSTRACT

Binary Neural Networks (BNNs) show promising progress in reducing computational and memory costs but suffer from substantial accuracy degradation compared to their real-valued counterparts on large-scale datasets, e.g., ImageNet. Previous work mainly focused on reducing quantization errors of weights and activations, whereby a series of approximation methods and sophisticated training tricks have been proposed. In this work, we make several observations that challenge conventional wisdom. We revisit some commonly used techniques, such as scaling factors and custom gradients, and show that these methods are not crucial in training well-performing BNNs. On the contrary, we suggest several design principles for BNNs based on the insights learned and demonstrate that highly accurate BNNs can be trained from scratch with a simple training strategy. We propose a new BNN architecture BinaryDenseNet, which significantly surpasses all existing 1-bit CNNs on ImageNet without tricks. In our experiments, BinaryDenseNet achieves 18.6% and 7.6% relative improvement over the well-known XNOR-Network and the current state-of-the-art Bi-Real Net in terms of top-1 accuracy on ImageNet, respectively.

研究动机与目标

  • 对训练 BNNs 的传统认知提出质疑,以及常见技巧是否为必需。
  • 识别在二进制网络中保持信息流通的一般设计原则。
  • 提出并验证一种新的 BNN 架构(BinaryDenseNet),达到最先进的准确率。
  • 在 ImageNet 和 CIFAR-10 上展示从零开始的训练效果,并提供开源代码以确保可复现性。

提出的方法

  • 重新审视常见的 BNN 技术(缩放因子、近似符号、全精度预训练),并在从零开始训练时实证评估它们的影响。
  • 提出最大化信息流的准则,包括鼓励捷径连接和避免瓶颈。
  • 通过将 DenseNet 的概念应用于二值网络来开发 BinaryDenseNet,并评估下采样策略(全精度 vs 二值)。
  • 与现有的 1-bit CNNs 在 ImageNet 上进行对比,并使用 SSD 进行对象检测初步研究。
  • 提供基于 BMXNet 的开源实现以实现可复现性。

实验结果

研究问题

  • RQ1是否可以在不使用缩放技巧或预训练的情况下,利用标准训练策略从头开始训练出高度准确的 BNN?
  • RQ2哪些网络设计原则最能在二值网络中保持信息流,以缓解精度损失?
  • RQ3增加捷径连接并避免瓶颈是否会在大规模数据集上给 BNN 带来可测量的提升?
  • RQ4BinaryDenseNet 相较于最新的 1-bit CNN(如 XNOR-Net、Bi-Real Net)在 ImageNet 上的表现如何?

主要发现

  • BinaryDenseNet 在 ImageNet 上的 1-bit CNNs 中达到最先进的准确率,相较以往方法有显著提升。
  • 使用所提出原则从头开始训练的 BinaryResNetE18,在同一架构下优于若干现有 BNN,且不需要缩放因子。
  • 在 ImageNet 上,BinaryDenseNet 模型达到顶级准确率如 BinaryDenseNet28 为 60.7% 等,并且在更大变体中更高,而 Bi-Real Net 和 XNOR-Net 相比显著较低。
  • 全精度下采样层在 ImageNet 上可以显著提升准确率(对于二值 ResNetE18 大约提升 3%),但代价是模型大小增大。
  • 增加捷径连接数量(如 DenseNet 启发的设计)可提升信息流和 BinaryDenseNet 的准确性,当拆分块和扩大连接性时观察到好处。
  • 他们的结果表明,按提出的设计原则从头开始训练可以优于现有的 1-bit CNN,即使没有像缩放、approxsign 或 FP 预训练等技巧。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。