QUICK REVIEW

[論文レビュー] StructADMM: A Systematic, High-Efficiency Framework of Structured Weight Pruning for DNNs

Tianyun Zhang, Shaokai Ye|arXiv (Cornell University)|Jul 29, 2018

Advanced Neural Network Applications参考文献 11被引用数 30

ひとこと要約

本稿では、動的正則化を用いた交替方向乗数法（ADMM）を用いて、深層ニューラルネットワーク（DNN）における構造的重み pruning のための統一的で体系的なフレームワーク、StructADMM を提案する。本手法は、フィルタ単位、チャネル単位、形状単位のパターンにわたり、高い精度と高い pruning 率を実現する構造的スパarsityを達成し、NVIDIA 1080Ti で 3.65× の GPU 速度向上、ResNet-50 で 15× の圧縮率と 11.93× の CPU 速度向上を達成しており、先行研究を著しく上回る性能を示す。

ABSTRACT

Weight pruning methods of DNNs have been demonstrated to achieve a good model pruning rate without loss of accuracy, thereby alleviating the significant computation/storage requirements of large-scale DNNs. Structured weight pruning methods have been proposed to overcome the limitation of irregular network structure and demonstrated actual GPU acceleration. However, in prior work the pruning rate (degree of sparsity) and GPU acceleration are limited (to less than 50%) when accuracy needs to be maintained. In this work,we overcome these limitations by proposing a unified, systematic framework of structured weight pruning for DNNs. It is a framework that can be used to induce different types of structured sparsity, such as filter-wise, channel-wise, and shape-wise sparsity, as well non-structured sparsity. The proposed framework incorporates stochastic gradient descent with ADMM, and can be understood as a dynamic regularization method in which the regularization target is analytically updated in each iteration. Without loss of accuracy on the AlexNet model, we achieve 2.58X and 3.65X average measured speedup on two GPUs, clearly outperforming the prior work. The average speedups reach 3.15X and 8.52X when allowing a moderate ac-curacy loss of 2%. In this case the model compression for convolutional layers is 15.0X, corresponding to 11.93X measured CPU speedup. Our experiments on ResNet model and on other data sets like UCF101 and CIFAR-10 demonstrate the consistently higher performance of our framework.

研究の動機と目的

精度を維持しながら低スパarsity（例：50%未満）にとどまる先行の構造的 pruning 法の限界を解消すること。
フィルタ単位、チャネル単位、形状単位の複数の種類の構造的スパarsityを同時に導出可能な統一フレームワークの開発。
最適化駆動の体系的かつ実行可能で高速収束を実現するアプローチにより、高精度かつ高圧縮率の DNN を実現すること。
多様なモデルとデータセットにわたる一般化性を示す観点から、モデル圧縮、GPU および CPU における推論速度向上の面で優れた実用的性能を示すこと。

提案手法

確率的勾配降下法と ADMM を統合し、各反復で正則化ターゲットの解析的更新ルールを用いてスパarsity 制約を動的に調整する。
構造的スパarsity を組合せ的制約として定式化し、ADMM がこのような制約を効果的に処理できることを活かして解の妥当性を維持する。
プルーニング後のモデルの精度保持を確保するため、マスクマッピングと再訓練ステップを含む。
ADMM フレームワーク内に適切なスパarsity 促進制約を定義することで、フィルタ単位、チャネル単位、形状単位の複数のスパarsity パatters をサポートする。
同じ最適化パイプラインを用いて構造的および非構造的 pruning を可能とするため、統一フレームワークを実現する。
効率的なスパース行列演算を実装し、実ハードウェア（NVIDIA 1080Ti、Jetson TX2、Intel i7-6700K）上で評価することで、実際の速度向上を測定する。

実験結果

リサーチクエスチョン

RQ1統一フレームワークは、DNN における複数のスパarsity パatters（フィルタ単位、チャネル単位、形状単位）にわたり、高精度な構造的重み pruning を達成できるか？
RQ2動的正則化を用いた ADMM 基盤の最適化は、ヒューリスティック正則化手法に比べ、より高い pruning 率と高速収束を実現できるか？
RQ3構造的 pruning は、精度を維持または向上させながら、顕著な GPU および CPU 速度向上を達成できるか？
RQ4特に中程度の精度損失を伴う状況において、先行研究に比べ、本手法の pruning 率と速度向上はどのように優れているか？

主な発見

精度損失なしの AlexNet において、StructADMM は NVIDIA 1080Ti で 2.58×、Jetson TX2 で 3.65× の測定済み GPU 速度向上を達成し、先行研究の 49% 速度向上を上回る。
2% の精度損失を伴う状況では、GPU 速度向上が 3.15× および 8.52× に達し、畳み込み層で 15.0× のモデル圧縮が実現され、対応する CPU 速度向上は 11.93× に達する。
ResNet-50 では、0% の精度損失で 2× の構造的 pruning を達成し、0.9% の精度損失で 3× の pruning を実現し、優れた一般化性能を示す。
AlexNet における非構造的 pruning では、conv2-conv5 で精度損失なしに 16.1× の圧縮率を達成し、Han ら（2015）および Guo ら（2016）の先行手法を上回る。
40.5× の非構造的 pruning でさえも、TX2 では GPU 速度向上が 2× 未満に抑えられ、1080Ti では速度向上が低下するため、不規則なスパarsity は実用的な加速をもたらさないことが確認された。
本フレームワークは、最先端手法の中でも、AlexNet および VGG-16 において、精度損失なしに最高の非構造的圧縮率を達成している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。