Skip to main content
QUICK REVIEW

[論文レビュー] ADAM-ADMM: A Unified, Systematic Framework of Structured Weight Pruning for DNNs.

Tianyun Zhang, Kaiqi Zhang|arXiv (Cornell University)|Jul 29, 2018
Advanced Neural Network Applications参考文献 30被引用数 56
ひとこと要約

ADAM-ADMMは、DNNにおける構造的重み pruning のための統一的で体系的なフレームワークを提案する。勾配の適応的推定とADMMを組み合わせ、正則化の目標を動的に更新することで、高スパarsity(最大13.2倍の圧縮)と顕著なGPUの高速化(最大7.5倍)を実現し、精度の損失なし、またはわずかな低下で実現可能であり、AlexNetでは33%のスパarsityで1.64%の精度向上を達成した。

ABSTRACT

Weight pruning methods of deep neural networks (DNNs) have been demonstrated to achieve a good model pruning ratio without loss of accuracy, thereby alleviating the significant computation/storage requirements of large-scale DNNs. Structured weight pruning methods have been proposed to overcome the limitation of irregular network structure and demonstrated actual GPU acceleration. However, the pruning ratio (degree of sparsity) and GPU acceleration are limited (to less than 50%) when accuracy needs to be maintained. In this work, we overcome pruning ratio and GPU acceleration limitations by proposing a unified, systematic framework of structured weight pruning for DNNs, named ADAM-ADMM (Adaptive Moment Estimation-Alternating Direction Method of Multipliers). It is a framework that can be used to induce different types of structured sparsity, such as filter-wise, channel-wise, and shape-wise sparsity, as well non-structured sparsity. The proposed framework incorporates stochastic gradient descent with ADMM, and can be understood as a dynamic regularization method in which the regularization target is analytically updated in each iteration. A significant improvement in weight pruning ratio is achieved without loss of accuracy, along with fast convergence rate. With a small sparsity degree of 33% on the convolutional layers, we achieve 1.64% accuracy enhancement for the AlexNet (CaffeNet) model. This is obtained by mitigation of overfitting. Without loss of accuracy on the AlexNet model, we achieve 2.6 times and 3.65 times average measured speedup on two GPUs, clearly outperforming the prior work. The average speedups reach 2.77 times and 7.5 times when allowing a moderate accuracy loss of 2%. In this case the model compression for convolutional layers is 13.2 times, corresponding to 10.5 times CPU speedup. Our models and codes are released at https://github.com/KaiqiZhang/ADAM-ADMM

研究の動機と目的

  • 既存の構造的 pruning 法が50%未満のスパarsityにとどまり、精度を維持したままGPUの加速が限られているという問題を解決する。
  • 1つの統一的アプローチ内で複数の種類の構造的スパarsity(フィルタ単位、チャネル単位、形状単位、非構造的)を誘導可能な体系的フレームワークを開発する。
  • モデル圧縮、推論速度、精度のトレードオフを克服し、高速な収束と最小限の精度低下を伴う高 pruning 確率を実現する。
  • 現代のハードウェアで効率的なカーネル実行に対応する構造的スパarsityを確保することで、pruned モデルに対する実用的なGPU加速を実現する。

提案手法

  • 確率的勾配降下法(SGD)と交替方向乗数法(ADMM)を統合し、構造的重み pruning のためのハイブリッド最適化フレームワークを構築する。
  • 各イテレーションで適応的モーメント推定に基づいて正則化の目標を解析的に更新することで、適応的正則化を導入し、動的スパarsity誘導を可能にする。
  • スパarsityをADMMによる制約付き最適化タスクとして定式化し、双対変数と拡張ラグランジュ項を繰り返し更新する。
  • ADMMフレームワーク内での柔軟な制約設計により、複数のスパarsityパターン(フィルタ単位、チャネル単位、形状単位、非構造的)をサポートする。
  • ADMMにおけるペナルティパラメータのウォームアップ戦略を導入し、学習中の収束性と安定性を向上させる。
  • 構造的スパarsityを活用して効率的なGPUカーネル実行を実現し、現代のGPUアーキテクチャにおける推論速度を顕著に向上させる。

実験結果

リサーチクエスチョン

  • RQ1統一的フレームワークは、フィルタ単位、チャネル単位、形状単位の多様な構造的スパarsityを誘導可能であり、モデル精度を維持または向上させることができるか?
  • RQ2ADMMと適応的モーメント推定を統合することで、構造的 pruning における収束速度と最終的なモデル性能にどのような影響を与えるか?
  • RQ3AlexNetなどの標準的なDNNにおいて、精度を損なわず、10倍以上(例:10×以上)の高スパarsity比を達成できるか?
  • RQ4従来の最先端の構造的 pruning 法と比較して、得られた pruned モデルはどの程度のGPU推論高速化を達成できるか?
  • RQ5特に高スパarsityレベルにおいて、フレームワークは過学習をどのように緩和するか?

主な発見

  • 畳み込み層において33%のスパarsityレベルで、AlexNet(CaffeNet)モデルで1.64%の精度向上を達成した。これは過学習の緩和に起因するとされた。
  • 精度の損失なしに、2つの異なるGPU環境で平均2.6倍および3.65倍のGPU高速化を達成し、先行研究を上回った。
  • 2%の精度低下を許容した場合、平均のGPU高速化はそれぞれ2.77倍および7.5倍に増加し、優れたスケーラビリティを示した。
  • 畳み込み層のモデル圧縮比は13.2倍に達し、CPU推論では10.5倍の高速化を達成した。これは、pruned モデルの実用的効率性を示している。
  • フレームワークは、1つの統一的フレームワーク内でフィルタ単位、チャネル単位、形状単位、非構造的の複数の種類の構造的スパarsityを成功裏に誘導した。
  • 適応的モーメント推定に基づく動的正則化メカニズムにより、pruning の過程で高速な収束と安定した最適化が実現された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。