[论文解读] Bit-Tactical: Exploiting Ineffectual Computations in Convolutional Neural Networks: Which, Why, and How
Bit-Tactical (TCL) 是一种硬件加速器,通过利用激活值中的动态精度可变性和无用位内容,而非仅针对零权重或零激活值,来提升卷积神经网络(CNN)推理的性能和能效。它在无需修改模型的前提下,原生支持卷积层和全连接层,相比密集基线模型,性能提升5.05倍,能效提升2.98倍。
We show that, during inference with Convolutional Neural Networks (CNNs), more than 2x to $8x ineffectual work can be exposed if instead of targeting those weights and activations that are zero, we target different combinations of value stream properties. We demonstrate a practical application with Bit-Tactical (TCL), a hardware accelerator which exploits weight sparsity, per layer precision variability and dynamic fine-grain precision reduction for activations, and optionally the naturally occurring sparse effectual bit content of activations to improve performance and energy efficiency. TCL benefits both sparse and dense CNNs, natively supports both convolutional and fully-connected layers, and exploits properties of all activations to reduce storage, communication, and computation demands. While TCL does not require changes to the CNN to deliver benefits, it does reward any technique that would amplify any of the aforementioned weight and activation value properties. Compared to an equivalent data-parallel accelerator for dense CNNs, TCLp, a variant of TCL improves performance by 5.05x and is 2.98x more energy efficient while requiring 22% more area.
研究动机与目标
- 解决现有CNN加速器仅关注零值权重和激活值的局限性,这些方法未能充分挖掘深度神经网络中的信息低效性。
- 探索零值权重和激活值之外的其他无用计算来源,特别是激活值中的动态精度可变性和无用位内容。
- 设计一种实用的硬件加速器,原生支持稀疏和密集CNN,无需模型修改,同时提升性能和能效。
- 证明:针对非零但影响较小的激活位和可变的精度需求,相比仅基于零值跳过的策略,能释放更高的性能潜力。
提出的方法
- 通过静态重排序和软件调度实现权重稀疏性,使用小型多路复用器(4–8输入)实现高效的零权重跳过。
- 提出两种变体:TCLe,针对有效位分布不均(平均而言,<10%的位为1)的情况;TCLp,根据分析出的需求动态降低每层的精度。
- 采用广播式激活值分发机制,通过加法树聚合多个乘积,减少处理单元之间的通信开销。
- 原生支持卷积层和全连接层,无需对网络架构进行任何修改。
- 采用细粒度、动态的精度降低策略,使计算规模与所需精度匹配,从而减少存储和通信开销。
- 利用CNN的固有特性(如激活值在零附近聚集、有效位模式稀疏)来优化,无需显式剪枝或归零操作。
实验结果
研究问题
- RQ1除了零值之外,激活值的哪些特性能更有效地减少CNN推理中的无用计算?
- RQ2相比零值权重或激活值,能否更有效地利用激活值中的动态精度可变性和无用位内容来提升性能和能效?
- RQ3如何设计硬件加速器,使其能同时从多种信息低效形式中获益,而无需修改模型?
- RQ4在稀疏和密集网络中,针对激活精度和位内容进行优化,与仅针对零值优化相比,其性能与能效权衡如何?
主要发现
- 针对激活值的动态精度可变性和无用位内容,其性能潜力比仅基于零值跳过的策略高出2至8倍,尤其在如AlexNet等剪枝模型中表现更显著。
- TCLp(TCL的一种变体)在面积增加22%的前提下,相比等效的数据并行密集加速器(TCLp),实现了5.05倍的性能提升和2.98倍的能效增益。
- 该设计对稀疏和密集CNN均有效,无需模型层面的修改,得益于激活值分布的固有特性和精度缩放机制。
- 通过利用激活位模式和精度可变性,TCL在所有层(包括全连接层)中均减少了存储、通信和计算需求。
- 与基于位并行的加速器相比,TCL中未完全消除零值激活的代价显著更低,因为精度和位级优化带来的收益超过了损失。
- TCL激励CNN设计者提升权重稀疏性、降低激活精度或增加零位占比,因为这些优化能立即在TCL中体现为性能增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。