[论文解读] From Hashing to CNNs: Training BinaryWeight Networks via Hashing
本文将训练二值权重CNNs重新表述为一个保持内积的哈希问题,并提出 BWNH,一种带缩放因子的交替优化方法,在 CIFAR-10/100 和 ImageNet 上取得了最先进的结果。
Deep convolutional neural networks (CNNs) have shown appealing performance on various computer vision tasks in recent years. This motivates people to deploy CNNs to realworld applications. However, most of state-of-art CNNs require large memory and computational resources, which hinders the deployment on mobile devices. Recent studies show that low-bit weight representation can reduce much storage and memory demand, and also can achieve efficient network inference. To achieve this goal, we propose a novel approach named BWNH to train Binary Weight Networks via Hashing. In this paper, we first reveal the strong connection between inner-product preserving hashing and binary weight networks, and show that training binary weight networks can be intrinsically regarded as a hashing problem. Based on this perspective, we propose an alternating optimization method to learn the hash codes instead of directly learning binary weights. Extensive experiments on CIFAR10, CIFAR100 and ImageNet demonstrate that our proposed BWNH outperforms current state-of-art by a large margin.
研究动机与目标
- 推动在移动/嵌入式设备上部署时减少 CNN 参数量和计算量。
- 展示保持内积的哈希与二值权重网络之间的密切联系。
- 开发一种基于哈希的优化框架,结合缩放因子学习二值权重。
- 在标准基准测试上证明优于以往的二值权重网络。
- 提供可实践的训练方案,包括分层优化和微调。
提出的方法
- 将二值权重学习公式化为一个保持内积的哈希问题。
- 引入缩放因子以补偿量化损失:g(W) = B A。
- 通过逐层的交替优化并给出闭式更新来求解 B 和 A。
- 使用离散循环坐标下降(DCC)来更新二进制编码 B。
- 采用分层优化以减小跨层量化误差的积累。
- 对以学习到的二值编码和缩放因子初始化的二值化网络进行微调。
实验结果
研究问题
- RQ1是否可以通过将问题重述为哈希来有效地训练二值权重网络?
- RQ2引入每个滤波器的缩放因子是否能提升二值权重CNN的准确性?
- RQ3与之前的二值权重方法相比,分层哈希基方法在大模型和数据集(ImageNet)上的扩展性如何?
- RQ4缩放因子对性能和微调过程中的网络适应性的影响是什么?
主要发现
- BWNH 在 CIFAR-10/100 以及 ImageNet 上超越了现有的最先进二值权重方法。
- 在 ImageNet 的 ResNet-18 上,BWNH 达到 64.3% 的 Top-1 和 85.9% 的 Top-5,对比 BWN 的 60.8%/83.0% 和 全精度的 69.3%/89.2%。
- 在 ImageNet 的 ResNet-18 下,BWNH 的 Top-1 准确率比已报道的最佳二值权重网络高出 3.0 个百分点。
- 在 CIFAR-10/100 的 VGG-9 下,BWNH 实现 9.21%(CIFAR-10)和 34.35%(CIFAR-100)的错误率,超过 BinaryConnect、BWN 和 SQ-BWN。
- 缩放因子至关重要;没有它,准确率会坍缩,而推理时的缩放可以被 BatchNorm 吸收。
- BWNH 可以为其他二值权重训练方法提供有用的初始化,并且受益于后续的微调阶段。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。