QUICK REVIEW

[论文解读] Cnvlutin2: Ineffectual-Activation-and-Weight-Free Deep Neural Network Computing

Patrick Judd, Alberto Delmás Lascorz|arXiv (Cornell University)|Apr 29, 2017

Adversarial Robustness in Machine Learning参考文献 4被引用 33

一句话总结

Cnvlutin2 提出了一种深度神经网络加速器，通过在内存读取期间动态检测并结合智能编码，在不修改核心硬件的前提下，消除无效激活和权重的计算，从而减少内存占用和能耗。它通过预先计算跳过条件，将权重状态信号的开销降低至原来的1/256，实现了极低面积和能耗成本的剪枝感知推理。

ABSTRACT

We discuss several modifications and extensions over the previous proposed Cnvlutin (CNV) accelerator for convolutional and fully-connected layers of Deep Learning Network. We first describe different encodings of the activations that are deemed ineffectual. The encodings have different memory overhead and energy characteristics. We propose using a level of indirection when accessing activations from memory to reduce their memory footprint by storing only the effectual activations. We also present a modified organization that detects the activations that are deemed as ineffectual while fetching them from memory. This is different than the original design that instead detected them at the output of the preceding layer. Finally, we present an extended CNV that can also skip ineffectual weights.

研究动机与目标

解决传统DNN加速器无论数值内容如何均处理所有激活和权重所导致的低效问题。
通过仅编码有效激活和权重，减少DNN推理中的内存存储和能耗开销。
在内存读取期间实现无效激活的运行时检测，从而消除存储和访问成本。
将CNV架构扩展为可跳过涉及无效激活和无效权重的计算。
通过仅修改调度器和归约器，而非核心执行单元，保持与现有硬件的向后兼容性。

提出的方法

引入多种无效激活编码方案，与原始CNV的（激活，偏移）对格式相比，可显著降低内存和能耗开销。
提出一种内存读取级别的检测机制，在加载时实时识别无效激活，无需存储显式标志。
通过引入间接寻址机制，仅在内存中存储有效激活，从而通过选择性存储减少内存占用。
扩展调度器逻辑，将激活有效性（I向量）与权重有效性（IS向量）结合，以判断是否可跳过计算。
预先计算跨滤波器的IS向量乘积，将权重状态信号开销从每砖16位降低至每16块1位，实现1/256的开销压缩。
采用布尔逻辑条件：Can_Skip = (所有f的IS_f=0) AND (I=0)，其中I为激活有效性向量，IS_f为滤波器f的权重有效性。

实验结果

研究问题

RQ1如何在不牺牲检测准确性的前提下，最小化无效激活编码的内存存储和能耗开销？
RQ2是否可在内存读取期间实现无效激活检测，从而消除存储和访问成本？
RQ3通过使用间接寻址仅存储有效激活，内存占用可降低到何种程度？
RQ4CNV的性能与能耗优势能否扩展至支持剪枝感知的无效权重跳过？
RQ5在块内跨多个滤波器预计算权重有效性时，信号开销可降低多少？

主要发现

所提出的编码方案相比原始CNV的（激活，偏移）格式，显著降低了无效激活表示的内存和能耗开销。
在内存读取级别实现无效激活检测，无需额外存储或访问开销，因为不存储显式标志。
通过间接寻址仅存储有效激活，可消除零值或近零值的存储，从而减少内存占用。
IS向量乘积的预计算将权重状态信号开销从原砖大小的1/16降低至1/256，实现256倍的开销压缩。
扩展为同时跳过无效激活和权重，可带来额外的计算节省，尤其在并发处理滤波器较少的配置中效果更显著。
该方法通过仅修改调度器和归约器，避免对核心执行单元的改动，保持与现有硬件的兼容性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。