QUICK REVIEW

[論文レビュー] Exploring the Regularity of Sparse Structure in Convolutional Neural Networks

Huizi Mao, Song Han|arXiv (Cornell University)|May 24, 2017

Advanced Neural Network Applications参考文献 21被引用数 230

ひとこと要約

本論文は剪定の粒度が精度、保存容量、およびハードウェア効率に与える影響を体系的に研究し、大まかな粒度のスパーシティが同程度のスパース性で比較可能な精度を達成し、メモリアクセスを大幅に削減してハードウェア加速を支援できることを示している。

ABSTRACT

Sparsity helps reduce the computational complexity of deep neural networks by skipping zeros. Taking advantage of sparsity is listed as a high priority in next generation DNN accelerators such as TPU. The structure of sparsity, i.e., the granularity of pruning, affects the efficiency of hardware accelerator design as well as the prediction accuracy. Coarse-grained pruning creates regular sparsity patterns, making it more amenable for hardware acceleration but more challenging to maintain the same accuracy. In this paper we quantitatively measure the trade-off between sparsity regularity and prediction accuracy, providing insights in how to maintain accuracy while having more a more structured sparsity pattern. Our experimental results show that coarse-grained pruning can achieve a sparsity ratio similar to unstructured pruning without loss of accuracy. Moreover, due to the index saving effect, coarse-grained pruning is able to obtain a better compression ratio than fine-grained sparsity at the same accuracy threshold. Based on the recent sparse convolutional neural network accelerator (SCNN), our experiments further demonstrate that coarse-grained sparsity saves about 2x the memory references compared to fine-grained sparsity. Since memory reference is more than two orders of magnitude more expensive than arithmetic operations, the regularity of sparse structure leads to more efficient hardware design.

研究の動機と目的

CNNにおける剪定粒度（0-D 〜 3-D）が、固定されたスパース性レベルでの精度にどのように影響するかを評価する。
異なる疎結合構造の保存領域とメモリアクセスの影響を評価する。
CNNアクセラレータモデルを用いて、大まかな粒度のスパース性がもたらすハードウェア効率の利点を定量化する。
精度とハードウェアコストのバランスをとる剪定粒度の選択に関する指針を提供する。

提案手法

4つの剪定粒度を定義する：0-D（重み）、1-D（サブカーネルベクトル）、2-D（カーネル）、3-D（フィルター）。
L1セレンスが最も小さいグレインを層を跨いで除去するために、マグニチュードベースの反復剪定を適用する。
ImageNetでAlexNetを用いて訓練/評価し、同等のスパース性と訓練スケジュールの下でVGG-16、GoogLeNet、ResNet-50、DenseNet-121と比較する。
ストレージ影響と量子化適合性を調べるために、8ビット重みストレージと4ビットインデックスを使用する。
SCNN様のアクセラレータモデルを用いて、ハードウェアの影響を定性的・定量的に分析する。

実験結果

リサーチクエスチョン

RQ1CNN剪定におけるスパース性の規則性（粒度）と予測精度のトレードオフは何か？
RQ2同じ精度レベルで、粗い粒度の剪定が細かい粒度より同等またはより良い圧縮を達成できるか？
RQ3実際には、スパース性の粒度は保存要件とメモリアクセスの参照量にどう影響するか？
RQ4異なるスパース性粒度に対するハードウェアの影響とアクセラレータ設計上の考慮事項は何か？

主な発見

粗い粒度の剪定は、低スパース性における細粒度剪定と比較して、同じスパース性レベルで精度を一致させるか、わずかに向上させることができる。
大粒度剪定（フィルター）は顕著な精度低下を引き起こす一方、より小さな粒度（カーネル、ベクトル）は細粒度剪定と同様の精度を維持する。
粗い粒度のスパース性はインデックス共有によりより高い圧縮を達成し、同じ精度で比較可能またはより良い保存効率を生む。
同じ密度でVGG-16に対してメモリアクセスを約30–35%削減し、エネルギー効率を向上させる。
粗い粒度スパース性からのインデックス節約は、ハードウェア効率の向上とより単純なアクセラレータ設計を可能にする。
モデル間（AlexNet、VGG-16、GoogLeNet、ResNet-50、DenseNet-121）で、粗い粒度剪定はImageNetの高いTop-5精度を維持しつつ、保存容量とメモリ参照の削減を大幅にもたらす可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。