QUICK REVIEW

[论文解读] ShortcutFusion: From Tensorflow to FPGA-based accelerator with reuse-aware memory allocation for shortcut data

Duy Thanh Nguyen, Hyeonseung Je|arXiv (Cornell University)|Jun 15, 2021

Advanced Neural Network Applications参考文献 55被引用 40

一句话总结

ShortcutFusion 是一种端到端的FPGA编译器与加速器设计，为残差网络中的快捷连接实现感知重用的静态内存分配，显著减少对片外DRAM的访问。通过硬件感知的数据重用和共享乘加（MAC）阵列，它在256×256输入下对EfficientNet-B1实现2.8倍加速，并在功耗效率上比NVIDIA RTX 2080 Ti提升9.9倍，从而最小化特征图内存流量。

ABSTRACT

Residual block is a very common component in recent state-of-the art CNNs such as EfficientNet or EfficientDet. Shortcut data accounts for nearly 40% of feature-maps access in ResNet152 [8]. Most of the previous DNN compilers, accelerators ignore the shortcut data optimization. This paper presents ShortcutFusion, an optimization tool for FPGA-based accelerator with a reuse-aware static memory allocation for shortcut data, to maximize on-chip data reuse given resource constraints. From TensorFlow DNN models, the proposed design generates instruction sets for a group of nodes which uses an optimized data reuse for each residual block. The accelerator design implemented on the Xilinx KCU1500 FPGA card 2.8x faster and 9.9x more power efficient than NVIDIA RTX 2080 Ti for 256x256 input size. . Compared to the result from baseline, in which the weights, inputs, and outputs are accessed from the off-chip memory exactly once per each layer, ShortcutFusion reduces the DRAM access by 47.8-84.8% for RetinaNet, Yolov3, ResNet152, and EfficientNet. Given a similar buffer size to ShortcutMining [8], which also mine the shortcut data in hardware, the proposed work reduces off-chip access for feature-maps 5.27x while accessing weight from off-chip memory exactly once.

研究动机与目标

为解决现代CNN（如EfficientNet和ResNet152）中快捷连接导致的高带外内存访问问题，其特征图流量占比高达40%。
克服现有DNN编译器与加速器忽略跨层快捷数据重用和内存分配不优的局限性。
设计从TensorFlow冻结模型到FPGA加速推理的端到端流程，在片上缓冲区受限条件下实现最小化带外内存访问。
通过共享MAC阵列架构和智能数据重用调度，实现高MAC效率与低延迟。

提出的方法

编译器通过分析残差块并识别跨层快捷数据的最优重用模式，实现感知重用的静态内存分配。
将多个节点融合为单个内核，优化数据重用，最小化对带外DRAM的冗余访问。
硬件加速器采用共享MAC阵列架构，以最大化资源利用率并减少面积开销。
设计确保权重和特征图在每层仅从带外内存访问一次，即使片上缓冲区有限。
自定义数据流调度器支持灵活的重用方案（输入重用、输出重用和权重重用），根据每层特征进行定制。
系统从TensorFlow冻结模型端到端编译至Xilinx KCU1500 FPGA，支持8位推理。

实验结果

研究问题

RQ1基于编译器的方法是否能在不增加硬件复杂度的前提下显著减少残差网络中快捷数据的带外内存访问？
RQ2感知重用的静态内存分配在最小化DRAM流量的同时，是否能在FPGA上保持高MAC效率？
RQ3基于FPGA的加速器在现代基于挤压-激励机制的CNN（如EfficientNet-B1）上，其延迟和能效比是否能显著优于GPU？
RQ4所提出的共享MAC架构在资源利用率和吞吐量方面与传统设计相比如何？

主要发现

与基线相比，ShortcutFusion在RetinaNet、YOLOv3、ResNet152和EfficientNet模型上将DRAM访问减少了47.8%至84.8%。
对于256×256输入的EfficientNet-B1，FPGA加速器相比NVIDIA RTX 2080 Ti实现2.8倍加速和9.9倍更高的功耗效率。
在与ShortcutMining相似的缓冲区大小下，ShortcutFusion将带外特征图访问减少5.27倍，同时仅访问权重一次。
在KCU1500上以200 MHz运行时，该设计实现317.1 GOPS性能，尽管DSP利用率仅为19.37%，但得益于逐通道卷积模式，仍表现出高效率。
加速器实现100%权重重用，最小化中间数据移动，将256×256输入的总带外内存访问减少至60.7 MB。
该方法可适用于ASIC设计，为片上缓冲区与带外内存之间的权衡提供统一的优化策略。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。