[論文レビュー] Sparsely-Connected Neural Networks: Towards Efficient VLSI Implementation of Deep Neural Networks
この論文では、線形フィードバックシフトレジスタ(LFSR)を用いて生成されるランダムな接続マスクを用いて、完全結合層の接続数を最大90%まで削減するスパース接続ニューラルネットワークを提案する。これにより、VLSI実装において最大90%のシリコン面積削減と1ニューロンあたり84%のエネルギー消費削減を実現し、MNIST、CIFAR10、SVHNデータセットにおいて精度を向上または維持する。
Recently deep neural networks have received considerable attention due to their ability to extract and represent high-level abstractions in data sets. Deep neural networks such as fully-connected and convolutional neural networks have shown excellent performance on a wide range of recognition and classification tasks. However, their hardware implementations currently suffer from large silicon area and high power consumption due to the their high degree of complexity. The power/energy consumption of neural networks is dominated by memory accesses, the majority of which occur in fully-connected networks. In fact, they contain most of the deep neural network parameters. In this paper, we propose sparsely-connected networks, by showing that the number of connections in fully-connected networks can be reduced by up to 90% while improving the accuracy performance on three popular datasets (MNIST, CIFAR10 and SVHN). We then propose an efficient hardware architecture based on linear-feedback shift registers to reduce the memory requirements of the proposed sparsely-connected networks. The proposed architecture can save up to 90% of memory compared to the conventional implementations of fully-connected neural networks. Moreover, implementation results show up to 84% reduction in the energy consumption of a single neuron of the proposed sparsely-connected networks compared to a single neuron of fully-connected neural networks.
研究の動機と目的
- 深層ニューラルネットワーク(DNN)における完全結合層の高いメモリと電力消費を低減すること。これは、膨大なパラメータ数がエネルギー使用を支配しているためである。
- DNNのハードウェア実装におけるシリコン面積とエネルギー消費を低減すること。特にオンチップメモリとニューロンレベルの計算を対象とする。
- 追加のトレーニング段階を必要とせず、効率的なストレージと計算を可能にするVLSIフレンドリーなスパarsity機構を開発すること。
- スパース接続ネットワークが、接続数とメモリフットプリントを大幅に削減しながらも、精度を維持または向上させられることを実証すること。
提案手法
- 線形フィードバックシフトレジスタ(LFSR)に基づくステージストリックノイズジェネレータ(SNG)を用いて、ランダムな接続マスクを生成し、完全結合層をスパース化する。
- マスクに対応する非ゼロ重みのみを格納することで、密行列と比較して最大90%のメモリ要件削減を実現する。
- SNGがメモリアクセスを制御するハードウェアニューロンアーキテクチャを実装する。非ゼロ接続のみが乗算と加算をトリガーする。
- SNGからのカウンタと有効信号を用いて、圧縮された重み行列を順次アクセスし、従来の完全結合ニューロンと同等の遅延を維持する。
- さらにメモリ幅とエネルギー消費を低減するために、スパース接続アーキテクチャをバイナリ化/トレナリゼーションされた重みと統合する。
- VHDLを用いてTSMC 65 nm CMOSでニューロンアーキテクチャを合成し、スパarsity度(p = 0 から 0.9375)の変動に応じた面積、パワー、エネルギーを評価する。
実験結果
リサーチクエスチョン
- RQ1ランダムなスパース化により、精度を損なわずにDNNハードウェアのメモリとエネルギー消費を低減できるか?
- RQ2LFSRに基づくランダムマスクは、ネットワーク性能を維持または向上させながら、接続数をどの程度削減できるか?
- RQ3提案されたVLSIアーキテクチャは、従来の完全結合ニューロンと同等の遅延を維持しながら、どのように面積とエネルギーを削減するか?
- RQ4スパース接続ネットワークは、重みバイナリゼーションと組み合わせることで、DNNにおける過学習を防ぐ正則化要因として機能できるか?
- RQ5このスパarsity技術を用いたハードウェアニューロンで、メモリとエネルギーの最大削減率はどれほど達成可能か。また、スパarsity度に応じてどのようにスケーリングされるか?
主な発見
- 提案されたスパース接続ネットワークは、65 nm CMOSにおいて、完全結合実装と比較して1ニューロンあたり最大90%のメモリサイズ削減と90%のシリコン面積削減を達成した。
- スパarsity度 p = 0.9375 の場合、1ニューロンあたりのエネルギー消費は最大84%削減され、パワーは278 µWから43 µWに低下した。
- MNIST、CIFAR10、SVHNの各データセットにおいて、最大90%の接続数削減にもかかわらず、スパース接続ネットワークは最先端の精度を上回るか同等を達成した。
- 重み量子化と組み合わせた場合、報告済みの最良のバイナリ化・トレナリゼーションネットワークよりも低い誤分類率を達成した。
- ハードウェアアーキテクチャは、接続数が減少しても従来の完全結合ニューロンと同等の遅延を維持し、性能へのペナルティが生じなかった。
- SNGベースのスパarsity機構により、非ゼロ重みのみを格納することでオンチップメモリの節約が可能となり、メモリサイズはスパarsity度 p と逆比例してスケーリングされた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。