[论文解读] Towards Accurate Binary Convolutional Neural Network
这篇论文介绍 ABC-Net,一种使用多种二值权重基和多种二值激活来训练二值化 CNN 的方案,在 ImageNet 上接近全精度准确度,同时实现高效按位计算。
We introduce a novel scheme to train binary convolutional neural networks (CNNs) -- CNNs with weights and activations constrained to {-1,+1} at run-time. It has been known that using binary weights and activations drastically reduce memory size and accesses, and can replace arithmetic operations with more efficient bitwise operations, leading to much faster test-time inference and lower power consumption. However, previous works on binarizing CNNs usually result in severe prediction accuracy degradation. In this paper, we address this issue with two major innovations: (1) approximating full-precision weights with the linear combination of multiple binary weight bases; (2) employing multiple binary activations to alleviate information loss. The implementation of the resulting binary CNN, denoted as ABC-Net, is shown to achieve much closer performance to its full-precision counterpart, and even reach the comparable prediction accuracy on ImageNet and forest trail datasets, given adequate binary weight bases and activations.
研究动机与目标
- 通过对权重和激活进行二值化,推动在移动/硬件上实现低内存、低功耗的 CNN 部署。
- 提出一种用多种二值基的线性组合来逼近全精度权重的方法。
- 通过使用多种二值激活来增强网络内的信息流通。
- 证明在足够的基数下,二值 CNN 可以接近 ImageNet 上的全精度准确性。
提出的方法
- 将实值权重表示为 M 个二值权重基的线性组合,其中 B_m ∈ {-1, +1}。
- 从移位、归一化的实值权重计算 B_m,以实现通过 STE 的反向传播。
- 使用直通估计器进行训练,以通过二值基和二值激活进行反向传播。
- 将实值激活表示为由 N 个二值激活 A_n 及系数 beta_n 的线性组合,从而实现更丰富的信息传递。
- 将卷积表示为 M×N 次二值卷积之和,进一步在激活也为二值时实现按位运算。
- 使用批归一化和学习得到的移位参数来稳定并优化多组二值激活。
实验结果
研究问题
- RQ1在 ImageNet 上,使用多种二值权重基和多种二值激活,二值 CNN 能达到多接近全精度的准确性?
- RQ2改变权重基数 M 与激活数 N 对分类准确度有何影响?
- RQ3整体(或按通道)用二值基来近似权重是否能有效替代 CNN 中的全精度权重?
- RQ4在大规模数据集上,ABC-Net 与现有的量化/二值化方法相比如何?
主要发现
- 使用 5 个二值权重基和 5 个二值激活的 ABC-Net 在 ImageNet 上的 ResNet-18 达到 Top-1 65.0%、Top-5 85.9%,接近全精度性能(Top-1 69.3%、Top-5 89.2%)。
- 随着 M 和 N 的增加,准确率持续提升,较大配置使与全精度模型的差距减小(例如 M=5, N=5 的 Top-1 差距约为 4.3%)。
- 与最先进的二值/低精度网络(BWN、XNOR-Net、BNN、DoReFa-Net)相比,具有多基与多激活的 ABC-Net 在保持权重和激活二值的同时,提供显著更高的 Top-1/Top-5 精度。
- 按通道的权重近似可能比整体权重近似提供更细粒度的建模,尽管训练成本更高。
- 使用全精度激活和二值权重(或反之)也能获得有竞争力的结果,显示了 ABC-Net 设计的灵活性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。