[论文解读] Accelerating Deep Convolutional Networks using low-precision and sparsity
本文提出一种2-bit三值权重重残差网络,在ImageNet上实现76.6% Top-1/93% Top-5准确率,高于任何先前的低精度网络,同时将计算量减少约3倍。它引入了dLAC硬件加速器,通过跳过零值运算实现加速,利用低精度网络中的稀疏性,实现高达1 TFLOP/mm²的性能密度。
We explore techniques to significantly improve the compute efficiency and performance of Deep Convolution Networks without impacting their accuracy. To improve the compute efficiency, we focus on achieving high accuracy with extremely low-precision (2-bit) weight networks, and to accelerate the execution time, we aggressively skip operations on zero-values. We achieve the highest reported accuracy of 76.6% Top-1/93% Top-5 on the Imagenet object classification challenge with low-precision network\footnote{github release of the source code coming soon} while reducing the compute requirement by ~3x compared to a full-precision network that achieves similar accuracy. Furthermore, to fully exploit the benefits of our low-precision networks, we build a deep learning accelerator core, dLAC, that can achieve up to 1 TFLOP/mm^2 equivalent for single-precision floating-point operations (~2 TFLOP/mm^2 for half-precision).
研究动机与目标
- 在不牺牲准确率的前提下,提升深度卷积网络的计算效率。
- 实现使用极低精度(2-bit)权重的高准确率推理与训练。
- 利用低精度网络中的动态稀疏性来加速计算。
- 设计一种高性能、面积高效的深度学习加速器(dLAC),通过利用稀疏性实现零值跳过。
- 证明更深的低精度网络可在准确率和效率上超越更浅的全精度模型。
提出的方法
- 采用三值权重重量化:权重根据阈值映射到{-1, 0, 1},实现2-bit表示。
- 在切换到低精度训练前,应用激进的学习率调度和全精度预训练,以提升准确率。
- 通过允许零权重在训练和推理过程中动态变化,实现动态稀疏性,从而在静态剪枝之外进一步提升有效稀疏度。
- 设计dLAC,一种专用加速器核心,通过跳过零值的乘加运算,提升有效FLOP吞吐量。
- 采用纯ASIC流程在14nm CMOS工艺上综合dLAC,优化缓冲器和算术单元以实现高密度和高性能。
- 在ResNet-34各层上评估性能,结果表明由于零值跳过,更深、更稀疏的层获得更高的加速比。
实验结果
研究问题
- RQ12-bit三值权重网络是否能在将计算量减少3倍的同时,在ImageNet上实现最先进准确率?
- RQ2与静态剪枝相比,低精度网络中的动态稀疏性在计算节省和准确率方面表现如何?
- RQ3一种跳过零值运算的硬件加速器是否能在真实网络中实现超过1 TFLOP/mm²的性能密度?
- RQ4更深的低精度网络变体(如ResNet-34)是否在准确率和效率上均优于更浅的全精度模型(如ResNet-18)?
- RQ5dLAC在深层网络各层中的性能表现如何,特别是在深层中稀疏度更高的情况下?
主要发现
- 2-bit三值权重ResNet-34在ImageNet上实现76.6% Top-1和93% Top-5准确率,为当前报道的最低精度网络中最高,仅比2015年ImageNet冠军低1.3%。
- 低精度ResNet-34所需的浮点运算量约为全精度ResNet-18的1/3,且准确率更高。
- dLAC在单精度模式下可维持高达1 TFLOP/mm²的等效性能密度,相比先前加速器性能密度提升约5倍。
- 通过跳过零值运算,加速器实现1.8–5倍的加速比,且在ResNet-34的更深、更稀疏层中获得更大收益。
- dLAC在500 MHz下实现2.5 Teraflops/秒的性能,芯片面积为2.2 mm²(14nm工艺),由于深层中更高的稀疏度,其性能密度可超过1 TFLOP/mm²。
- 低精度ResNet-34在准确率和计算效率上均优于全精度ResNet-18,证明低精度扩展可超越全精度基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。