[論文レビュー] Non-Structured DNN Weight Pruning -- Is It Beneficial in Any Platform?
本稿では、DNNにおける構造的重みプルーニングと量子化のための統合フレームワークADMM-NN-Sを提案する。公平で実装に依存しない比較により、量子化が適用された状況では、非構造的プルーニングが構造的プルーニングに優位性を示さないことが示された。主な発見は、非構造的プルーニングはストレージ効率や計算効率の観点から有益ではなく、ハードウェアアクセラレーションを想定した推論では避けるべきであるということである。
Large deep neural network (DNN) models pose the key challenge to energy efficiency due to the significantly higher energy consumption of off-chip DRAM accesses than arithmetic or SRAM operations. It motivates the intensive research on model compression with two main approaches. Weight pruning leverages the redundancy in the number of weights and can be performed in a non-structured, which has higher flexibility and pruning rate but incurs index accesses due to irregular weights, or structured manner, which preserves the full matrix structure with lower pruning rate. Weight quantization leverages the redundancy in the number of bits in weights. Compared to pruning, quantization is much more hardware-friendly, and has become a "must-do" step for FPGA and ASIC implementations. This paper provides a definitive answer to the question for the first time. First, we build ADMM-NN-S by extending and enhancing ADMM-NN, a recently proposed joint weight pruning and quantization framework. Second, we develop a methodology for fair and fundamental comparison of non-structured and structured pruning in terms of both storage and computation efficiency. Our results show that ADMM-NN-S consistently outperforms the prior art: (i) it achieves 348x, 36x, and 8x overall weight pruning on LeNet-5, AlexNet, and ResNet-50, respectively, with (almost) zero accuracy loss; (ii) we demonstrate the first fully binarized (for all layers) DNNs can be lossless in accuracy in many cases. These results provide a strong baseline and credibility of our study. Based on the proposed comparison framework, with the same accuracy and quantization, the results show that non-structrued pruning is not competitive in terms of both storage and computation efficiency. Thus, we conclude that non-structured pruning is considered harmful. We urge the community not to continue the DNN inference acceleration for non-structured sparsity.
研究の動機と目的
- DNN推論において重み量子化と組み合わせた場合、非構造的プルーニングと構造的プルーニングのどちらがより有益であるかという未解決の問いを解消すること。
- 非構造的プルーニングと構造的プルーニングの間でストレージ効率と計算効率を公平に比較するための、実装に依存しない手法を開発すること。
- 量子化と併用した場合、非構造的プルーニングが構造的プルーニングに優位性を持たないことを示し、特にFPGAやASICのようなハードウェアプラットフォームにおいて顕著であることを明らかにすること。
- ADMM-NN-Sを用いたプルーニングと量子化の統合により、高い圧縮率とほぼゼロの精度損失を達成する強固なベースラインを確立すること。
- DNN研究コミュニティに対して、推論加速のための非構造的スパarsityに向けた取り組みを中止するよう提言すること。
提案手法
- ADMM-NNに構造的プルーニングのためのアルゴリズム的サポートを拡張し、交替方向乗数法(ADMM)を用いてプルーニングと量子化を同時に最適化可能にする。
- 連合最適化訓練中の収束性と安定性を向上させるために、動的ADMMレギュレーションを導入する。
- マスクマッピングと再訓練を実装し、プルーニング後のモデル精度を維持する。これにより、性能劣化を最小限に抑える。
- ハードウェア固有の詳細に依存せずに、ストレージオーバーヘッド(インデックスストレージを含む)と計算効率を独立して測定できる比較フレームワークを設計する。
- LeNet-5、AlexNet、ResNet-50、VGGNet、MobileNetといった多様なモデルと、MNIST、CIFAR-10、ImageNetといった複数のデータセットを用いてフレームワークを適用し、一般化可能性を確認する。
- 3ビット、4ビット、8ビットの量子化レベルを用いて、精度とプルーニング効率への影響を評価する。
実験結果
リサーチクエスチョン
- RQ1DNN推論において重み量子化と組み合わせた場合、非構造的プルーニングはストレージ効率および計算効率の観点で有益であるか?
- RQ2同じ量子化レベル下で、構造的プルーニングと非構造的プルーニングを、圧縮比、精度、ハードウェア効率の観点から比較するとどうなるか?
- RQ3ADMM-NN-Sによるプルーニングと量子化の統合により、多様なDNNアーキテクチャにおいて最先端の結果が達成可能であり、ほぼゼロの精度損失を実現できるか?
- RQ4特に重みが低ビット幅に量子化された場合、インデックスストレージオーバーヘッドが非構造的プルーニングに与える影響は何か?
- RQ5特にトランスファー学習や敵対的設定において、構造的プルーニングは非構造的プルーニングに比べ、より優れたモデルの汎化性と耐性を示すか?
主な発見
- ADMM-NN-Sは、LeNet-5、AlexNet、ResNet-50において、それぞれ348倍、36倍、8倍の重みプルーニングを達成し、量子化と組み合わせた場合でもほぼゼロの精度損失を実現した。
- 本フレームワークは、複数の事例で全層がバイナリ化された完全なバイナリDNNを初めて実現し、損失のない精度を維持した。これは、プルーニングと量子化の統合の有効性を強く示している。
- 非構造的プルーニングはストレージ効率において競争力がない:348倍のプルーニングにおいては、インデックスストレージオーバーヘッド(1インデックスあたり9ビット以上)が重みストレージを上回り、特に低ビット幅で顕著である。
- 計算効率についても、非構造的プルーニングは不規則なメモリアクセスパターンとスパース演算のハードウェアサポートの欠如により劣る。
- 同一の精度と量子化条件下で、構造的プルーニングはストレージ効率および計算効率の両面で非構造的プルーニングを常に上回った。
- 本研究の結論として、非構造的プルーニングは有害であり、FPGA、ASIC、GPU、CPUプラットフォームを含むDNN推論加速の分野では、今後も追求すべきでない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。