Skip to main content
QUICK REVIEW

[论文解读] Training Competitive Binary Neural Networks from Scratch

Joseph Bethge, Marvin Bornstein|arXiv (Cornell University)|Dec 5, 2018
Advanced Neural Network Applications参考文献 15被引用 31
一句话总结

本文提出了一种新型的二值神经网络(BNNs)训练策略,在 MNIST、CIFAR-10 和 ImageNet 上实现了最先进(SOTA)的准确率,且无需依赖预训练的全精度模型。通过利用密集快捷连接、增加残差连接,并采用全精度下采样层,作者证明了BNN可以仅从随机初始化开始训练,达到或超越现有方法(包括BiReal-Net),在模型规模相近的情况下,ImageNet 上实现了 2.2% 的准确率提升。

ABSTRACT

Convolutional neural networks have achieved astonishing results in different application areas. Various methods that allow us to use these models on mobile and embedded devices have been proposed. Especially binary neural networks are a promising approach for devices with low computational power. However, training accurate binary models from scratch remains a challenge. Previous work often uses prior knowledge from full-precision models and complex training strategies. In our work, we focus on increasing the performance of binary neural networks without such prior knowledge and a much simpler training strategy. In our experiments we show that we are able to achieve state-of-the-art results on standard benchmark datasets. Further, to the best of our knowledge, we are the first to successfully adopt a network architecture with dense connections for binary networks, which lets us improve the state-of-the-art even further.

研究动机与目标

  • 开发一种不依赖预训练全精度模型的二值神经网络训练策略。
  • 通过架构创新(特别是密集快捷连接)提升二值神经网络的准确率。
  • 评估架构选择(如全精度下采样和增加残差连接)对BNN性能的影响。
  • 证明仅使用简单的优化策略,即可从零开始训练出高准确率的BNN。
  • 在标准基准上建立二值神经网络的新最先进水平,无需复杂的微调过程。

提出的方法

  • 作者提出一种基于密集连接(DenseNetE)的二值神经网络架构,用密集跳跃连接替代标准残差连接,以增强特征复用。
  • 引入全精度下采样层以在特征图下采样过程中保留信息,与以往工作中使用的二值下采样形成对比。
  • 训练策略采用标准随机梯度下降,无需自定义梯度近似或缩放因子,依赖于简单、端到端的训练流程。
  • 模型从随机初始化开始训练,不依赖任何全精度模型的知识,仅依赖二值权重和激活。
  • 作者系统性地消融架构组件,包括连接数量和层类型,以隔离其对准确率的影响。
  • 他们在ResNetE和DenseNetE变体上比较了方法,以模型大小和准确率为关键评估指标。

实验结果

研究问题

  • RQ1当二值神经网络从零开始训练且不使用预训练全精度模型时,能否实现最先进准确率?
  • RQ2增加快捷连接的数量如何影响二值神经网络的性能?
  • RQ3与二值下采样相比,使用全精度下采样层对二值神经网络有何影响?
  • RQ4密集连接架构能否成功适配于二值神经网络以提升准确率?
  • RQ5与复杂的微调方法相比,所提出的训练策略在准确率和模型效率方面表现如何?

主要发现

  • 所提出的DenseNetE-21模型在ImageNet上实现了58.6%的top-1准确率,相比参数量相近(3.99 MB)的BiReal-Net-18,准确率提升了2.2%。
  • 在二值DenseNet-21(增长率为128)中,使用全精度下采样层使CIFAR-10准确率提升了2.7%(从87.6%提升至90.3%),尽管模型大小从673 KB增加到1.49 MB。
  • 作者仅通过简单的训练策略(无需缩放因子或自定义梯度计算),在ImageNet和CIFAR-10上实现了最先进性能。
  • 采用密集连接和全精度下采样层的模型显著缩小了二值网络与全精度网络之间的准确率差距,尤其在ImageNet等大规模数据集上表现明显。
  • 从零开始训练的策略在ResNet-18和ResNet-34上优于ABC-Net,表明预训练并非BNN实现高准确率的必要条件。
  • 结果表明,架构创新(如密集连接和全精度下采样)在提升BNN准确率方面比复杂训练技术更为有效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。