QUICK REVIEW

[论文解读] BinaryNet: Training Deep Neural Networks with Weights and Activations Constrained to +1 or -1

Matthieu Courbariaux, Yoshua Bengio|arXiv (Cornell University)|Feb 9, 2016

Advanced Neural Network Applications被引用 490

一句话总结

BinaryNet 提出通过将权重和激活值限制为 +1 或 -1 来训练深度神经网络，从而利用 XNOR 操作替代乘法运算，实现高效的推理。该方法在 MNIST、CIFAR-10 和 SVHN 上实现了接近最先进水平的准确率，同时显著降低了内存占用并加速了推理过程——在使用自定义 GPU 内核的情况下，MNIST 上实现了 7 倍的加速，且未造成准确率损失。

ABSTRACT

We introduce BinaryNet, a method which trains DNNs with binary weights and activations when computing parameters' gradient. We show that it is possible to train a Multi Layer Perceptron (MLP) on MNIST and ConvNets on CIFAR-10 and SVHN with BinaryNet and achieve nearly state-of-the-art results. At run-time, BinaryNet drastically reduces memory usage and replaces most multiplications by 1-bit exclusive-not-or (XNOR) operations, which might have a big impact on both general-purpose and dedicated Deep Learning hardware. We wrote a binary matrix multiplication GPU kernel with which it is possible to run our MNIST MLP 7 times faster than with an unoptimized GPU kernel, without suffering any loss in classification accuracy. The code for BinaryNet is available.

研究动机与目标

通过将权重和激活值均限制为二值（+1 或 -1）来实现深度神经网络的高效推理。
在通用硬件和专用硬件中均降低深度学习的内存使用量和计算成本。
尽管进行了极端的权重和激活量化，仍保持高分类准确率。
开发一种支持反向传播与二值梯度的训练方法，实现端到端学习。
通过优化的 GPU 内核演示实际的推理加速效果，适用于二值矩阵乘法。

提出的方法

前向传播和反向传播过程中均使用二值权重和激活值，梯度通过直通估计器计算。
使用随机梯度下降训练网络，其中权重和激活值为二值，仅在梯度计算中使用全精度权重。
在 GPU 上实现了一个二值矩阵乘法内核，通过 XNOR 和位计数操作加速推理。
采用缩放因子以在反向传播过程中保持梯度幅度，缓解二值化带来的信息损失。
训练过程交替更新全精度权重，并将其投影为 ±1 以用于推理。
该方法应用于 MNIST 上的多层感知机（MLP）和 CIFAR-10 与 SVHN 上的卷积神经网络（ConvNets），展示了在不同网络架构和数据集上的泛化能力。

实验结果

研究问题

RQ1在权重和激活值被限制为 ±1 的情况下，深度神经网络能否在不造成显著准确率下降的前提下被有效训练？
RQ2BinaryNet 在 MNIST、CIFAR-10 和 SVHN 等标准基准测试中的性能与全精度网络相比如何？
RQ3在深度学习系统中，二值推理在多大程度上能够减少内存占用并加速计算？
RQ4针对二值矩阵乘法的自定义 GPU 内核是否能在不损失准确率的前提下实现可测量的推理加速？
RQ5直通估计器在具有二值权重和激活值的网络中进行反向传播时是否有效？

主要发现

尽管使用了二值权重和激活值，BinaryNet 在 MNIST、CIFAR-10 和 SVHN 上仍实现了接近最先进水平的分类准确率。
通过将权重和激活值存储为单个比特而非 32 位浮点数，该方法显著降低了内存使用量。
通过将大多数乘法运算替换为 XNOR 和位计数操作，推理速度得到提升，这些操作在现代硬件上极为高效。
使用自定义的二值矩阵乘法 GPU 内核，MNIST 推理速度相比未优化内核实现了 7 倍加速，且准确率未下降。
采用直通估计器的训练过程能够实现有效的反向传播，并在所有测试数据集中实现收敛。
该方法可推广至不同网络架构（包括 MLP 和 ConvNets）及多个基准数据集。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。