QUICK REVIEW

[论文解读] Sparsely-Connected Neural Networks: Towards Efficient VLSI Implementation of Deep Neural Networks

Arash Ardakani, Carlo Condo|arXiv (Cornell University)|Nov 4, 2016

Advanced Neural Network Applications参考文献 28被引用 34

一句话总结

本文提出了一种稀疏连接的神经网络，通过使用线性反馈移位寄存器（LFSRs）生成的随机连接掩码，将全连接层的连接数减少高达90%，在VLSI实现中使硅片面积减少高达90%，每个神经元的能耗降低84%，同时在MNIST、CIFAR10和SVHN数据集上保持或提升准确率。

ABSTRACT

Recently deep neural networks have received considerable attention due to their ability to extract and represent high-level abstractions in data sets. Deep neural networks such as fully-connected and convolutional neural networks have shown excellent performance on a wide range of recognition and classification tasks. However, their hardware implementations currently suffer from large silicon area and high power consumption due to the their high degree of complexity. The power/energy consumption of neural networks is dominated by memory accesses, the majority of which occur in fully-connected networks. In fact, they contain most of the deep neural network parameters. In this paper, we propose sparsely-connected networks, by showing that the number of connections in fully-connected networks can be reduced by up to 90% while improving the accuracy performance on three popular datasets (MNIST, CIFAR10 and SVHN). We then propose an efficient hardware architecture based on linear-feedback shift registers to reduce the memory requirements of the proposed sparsely-connected networks. The proposed architecture can save up to 90% of memory compared to the conventional implementations of fully-connected neural networks. Moreover, implementation results show up to 84% reduction in the energy consumption of a single neuron of the proposed sparsely-connected networks compared to a single neuron of fully-connected neural networks.

研究动机与目标

解决深度神经网络（DNN）中全连接层的高内存和高功耗问题，其因参数量巨大而主导能耗。
降低DNN硬件实现中的硅片面积和能耗，特别是针对片上内存和神经元级计算。
开发一种适合VLSI的稀疏机制，实现高效存储与计算，且无需额外的训练阶段。
证明稀疏连接网络可在大幅减少连接数和内存占用的同时，保持或提升准确率。

提出的方法

使用基于线性反馈移位寄存器（LFSRs）的随机噪声生成器（SNG）生成随机连接掩码，对全连接层进行稀疏化。
仅存储掩码中对应激活连接的非零权重，与密集权重矩阵相比，内存需求最高可降低90%。
实现一种硬件神经元架构，其中SNG控制内存访问：仅激活连接触发乘法与累加操作。
使用SNG提供的计数器和使能信号，按顺序访问压缩的权重矩阵，保持与传统全连接神经元相同的延迟。
将稀疏连接架构与二值化/三值化权重结合，进一步减少内存宽度和能耗。
在TSMC 65 nm CMOS工艺中使用VHDL综合神经元架构，并在不同稀疏度水平（p = 0 到 0.9375）下评估面积、功耗和能耗。

实验结果

研究问题

RQ1在不降低准确率的前提下，全连接层的随机稀疏化是否能降低DNN硬件的内存和能耗？
RQ2基于LFSR的随机掩码在多大程度上能减少连接数，同时保持或提升网络性能？
RQ3所提出的VLSI架构如何在保持与传统全连接神经元相同延迟的前提下实现面积和能耗的节省？
RQ4稀疏连接网络是否可作为正则化方法，防止DNN过拟合，尤其是在与权重二值化结合时？
RQ5使用该稀疏技术的硬件神经元可实现的最大内存和能耗降低程度是多少？其性能如何随稀疏度的提升而变化？

主要发现

所提出的稀疏连接网络在65 nm CMOS工艺中，与全连接实现相比，单个神经元的内存大小和硅片面积最高可减少90%。
在稀疏度p = 0.9375时，每个神经元的能耗最高降低84%，功耗从278 µW降至43 µW。
在MNIST、CIFAR10和SVHN数据集上，尽管连接数最多减少90%，稀疏连接网络的性能仍优于或匹配当前最先进准确率。
在与权重量化结合时，该方法的误分类率低于已报告的最佳二值化和三值化网络。
硬件架构保持了与传统全连接神经元相同的延迟，确保在连接数减少的情况下无性能损失。
基于SNG的稀疏机制通过仅存储非零权重，实现了片上内存的节省，且内存大小与稀疏度p成反比。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。