QUICK REVIEW

[论文解读] Hardware-Efficient Structure of the Accelerating Module for Implementation of Convolutional Neural Network Basic Operation

Aleksandr Cariow, Galina Cariowa|arXiv (Cornell University)|Jan 1, 2018

Advanced Data Processing Techniques参考文献 17被引用 1

一句话总结

本文提出了一种硬件高效的模块，通过采用改进的Winograd最小化滤波方法和计算向量化，加速卷积神经网络（CNN）运算。通过将乘法器数量从6个减少到4个，加法器数量从4个减少到8个，该设计显著降低了实现复杂度，为包含数十个或数百个此类模块的大规模CNN带来了显著的效率提升。

ABSTRACT

This paper presents a structural design of the hardware-efficient module for implementation of convolution neural network (CNN) basic operation with reduced implementation complexity. For this purpose we utilize some modification of the Winograd minimal filtering method as well as computation vectorization principles. This module calculate inner products of two consecutive segments of the original data sequence, formed by a sliding window of length 3, with the elements of a filter impulse response. The fully parallel structure of the module for calculating these two inner products, based on the implementation of a naive method of calculation, requires 6 binary multipliers and 4 binary adders. The use of the Winograd minimal filtering method allows to construct a module structure that requires only 4 binary multipliers and 8 binary adders. Since a high-performance convolutional neural network can contain tens or even hundreds of such modules, such a reduction can have a significant effect.

研究动机与目标

降低CNN加速模块的硬件复杂度，以提升能效和面积效率。
最小化计算卷积运算内积所需的二进制乘法器和加法器数量。
应用Winograd最小化滤波方法以优化CNN中的卷积运算。
通过降低每个基本运算的资源需求，实现CNN的可扩展部署。
通过结构优化提升CNN硬件加速器的每瓦性能。

提出的方法

采用改进的Winograd最小化滤波方法，重构CNN卷积中内积的计算方式。
应用计算向量化原理，实现对两个连续数据段的并行处理。
设计一种完全并行的架构，通过优化的算术部件同时计算两个内积。
将原始方法中的6个乘法器和4个加法器替换为仅需4个乘法器和8个加法器的更高效结构。
通过重新组织卷积运算的数学表达，最小化冗余计算和硬件使用。
将模块结构化，以支持CNN推理流水线中的高吞吐量、低延迟运行。

实验结果

研究问题

RQ1如何在不牺牲计算精度的前提下降低CNN卷积模块的硬件复杂度？
RQ2在滑动窗口卷积中，计算两个连续内积所需的最少乘法器和加法器数量是多少？
RQ3Winograd最小化滤波方法能否被适配以减少CNN硬件加速器中的乘法器数量？
RQ4数据段的向量化在卷积运算中在多大程度上提升了硬件效率？
RQ5所提出的结构在大规模CNN架构中，其资源节省效果如何扩展？

主要发现

所提出的模块将二进制乘法器数量从6个减少到4个，乘法器数量减少了33%。
二进制加法器数量从4个增加到8个，但此权衡实现了整体硬件复杂度的净降低。
改进的Winograd方法可实现两个内积的并行高效计算，且仅使用最少的算术资源。
该优化结构特别适用于大规模CNN，其中会使用数十个或数百个此类模块。
该设计实现了显著的硬件效率增益，适用于高性能、低功耗的CNN加速器。
该方法表明，算法优化可导致CNN硬件中关键算术部件的可测量减少。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。