[论文解读] Ternary Weight Networks
本论文提出三值权重网络(权重取 +1, 0, -1)并结合一个缩放因子近似全精度权重,在视觉任务上实现显著的模型压缩和有竞争力的准确性,并且在目标检测性能上优于二值网络。
We present a memory and computation efficient ternary weight networks (TWNs) - with weights constrained to +1, 0 and -1. The Euclidian distance between full (float or double) precision weights and the ternary weights along with a scaling factor is minimized in training stage. Besides, a threshold-based ternary function is optimized to get an approximated solution which can be fast and easily computed. TWNs have shown better expressive abilities than binary precision counterparts. Meanwhile, TWNs achieve up to 16$ imes$ model compression rate and need fewer multiplications compared with the float32 precision counterparts. Extensive experiments on MNIST, CIFAR-10, and ImageNet datasets show that the TWNs achieve much better result than the Binary-Weight-Networks (BWNs) and the classification performance on MNIST and CIFAR-10 is very close to the full precision networks. We also verify our method on object detection task and show that TWNs significantly outperforms BWN by more than 10\% mAP on PASCAL VOC dataset. The pytorch version of source code is available at: https://github.com/Thinklab-SJTU/twns.
研究动机与目标
- 在边缘设备上,推动降低深度神经网络的存储与计算成本。
- 提出带缩放因子的三值权重量化,以近似全精度权重。
- 开发基于阈值的三值函数,以有效获得三值权重。
- 提供训练与推理过程,利用三值权重实现最少乘法。
- 展示在分类与检测任务中,将 TWNs 与全精度网络和二值权重网络的对比的经验结果。
提出的方法
- 将目标设定为最小化全精度权重与缩放后的三值权重之间的欧氏距离,最小化 ||W - αW~||2 ,其中 W~ ∈ {-1,0,1}。
- 引入基于阈值的三值函数 W~i = f(Wi|Δ) 将权重映射到 {-1,0,1}。
- 推导 α* 与 Δ* 以求解简化后的优化问题,其中 Δ* 的近似使用基于 W 统计量的经验规则(Δ* ≈ 0.75 E|W|)。
- 通过在前向/反向传播中应用三值化,同时保留权重的全精度副本以用于更新来训练网络。
- 使用带动量的 SGD、批归一化,以及学习率分步衰减,按照跨层更新 W 和 α 的流程进行。
- 推理时通过对三值权重应用缩放因子 α,使部署时存储需求下降。
实验结果
研究问题
- RQ1三值权重(+1、0、-1)结合缩放因子是否能在降低内存与计算的同时有效近似全精度权重?
- RQ2如何最好地选择三值化阈值 Δ,以在准确性与压缩之间取得平衡?
- RQ3TWNs 在分类和检测任务上是否与全精度网络及二值权重网络具有有竞争力的性能?
- RQ4相较于 FPWNs 与 BPWNs,在标准视觉基准下,TWNs 对模型大小和计算的影响如何?
- RQ5所提出的训练策略(前向/后向三值化并带有全精度权重更新)在不同体系结构下是否实用且稳定?
主要发现
- TWNs 在保持卷积操作与二值网络类似的前提下实现了最高 16x 的模型压缩。
- 在 MNIST 与 CIFAR-10 上,TWNs 的准确性接近 FPWNs,并优于 BPWNs。
- 在 ImageNet 上,TWNs 缩小了与 FPWNs 的差距,且在更大骨干网络下的精度损失更小,优于 BPWNs。
- 在目标检测(PASCAL VOC 与 YOLOv5)中,TWNs 比 BPWNs 的 mAP 提升超过 10%,接近 FPWNs。
- TWNs 的收敛速度与 FPWNs 相近且更稳定,训练稳定性优于 BPWNs。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。