Skip to main content
QUICK REVIEW

[論文レビュー] AutoCompress: An Automatic DNN Structured Pruning Framework for Ultra-High Compression Rates

Ning Liu, Xiaolong Ma|arXiv (Cornell University)|Jul 6, 2019
Advanced Neural Network Applications参考文献 41被引用数 35
ひとこと要約

AutoCompress は、DRL を強化した ADMM ベースのプルーニングと精製ステップ、およびガイド付きヒューリスティック探索を組み合わせた自動フレームワークを提示し、最小の精度低下で超高い重み/FLOPs の削減を実現します。

ABSTRACT

Structured weight pruning is a representative model compression technique of DNNs to reduce the storage and computation requirements and accelerate inference. An automatic hyperparameter determination process is necessary due to the large number of flexible hyperparameters. This work proposes AutoCompress, an automatic structured pruning framework with the following key performance improvements: (i) effectively incorporate the combination of structured pruning schemes in the automatic process; (ii) adopt the state-of-art ADMM-based structured weight pruning as the core algorithm, and propose an innovative additional purification step for further weight reduction without accuracy loss; and (iii) develop effective heuristic search method enhanced by experience-based guided search, replacing the prior deep reinforcement learning technique which has underlying incompatibility with the target pruning problem. Extensive experiments on CIFAR-10 and ImageNet datasets demonstrate that AutoCompress is the key to achieve ultra-high pruning rates on the number of weights and FLOPs that cannot be achieved before. As an example, AutoCompress outperforms the prior work on automatic model compression by up to 33x in pruning rate (120x reduction in the actual parameter count) under the same accuracy. Significant inference speedup has been observed from the AutoCompress framework on actual measurements on smartphone. We release all models of this work at anonymous link: http://bit.ly/2VZ63dS.

研究の動機と目的

  • 構造化プルーニングの自動ハイパーパラメータ決定を動機づけ、最小限の精度低下で重みと FLOPs を削減する。
  • より高い圧縮のために複数の構造化プルーニング方式(例:フィルター、カラム)を統合する。
  • コアソルバーとして ADMM ベースの構造化プルーニングを活用し、精製ステップを追加する。
  • 高いプルーニング率を可能にするため、DRLベースのハイパーパラメータ探索を経験に基づくヒューリスティック探索に置換する。

提案手法

  • コア最適化エンジンとして ADMM ベースの構造化ウェイトプルーニングを採用する。
  • 構造を保ちながらカラム/フィルターごとの閾値を用いて追加のウェイトを除去する精製ステップを含む。
  • アクションサンプリング、迅速なアクション評価、意思決定、実際のプルーニングという4段階の汎用自動プロセスを採用する。
  • ガイド付き探索を用いた強化されたシミュレーテッドアニーリングで層ごとのプルーニングアクションを決定する。
  • 約各ラウンドで約2倍の削減を実現する進行的なプルーニングラウンドを許容し、超高圧縮を達成。
  • より高いハードウェア適合性と性能のためにフィルタプルーニングとカラムプルーニングを組み合わせた自動フレームワークを提供する。

実験結果

リサーチクエスチョン

  • RQ1自動的な層ごとのプルーニング率とプルーニング方式の組み合わせの選択は、精度を保ちながらより高い圧縮を達成できるか。
  • RQ2フィルタプルーニングとカラムプルーニングを組み合わせ、ADMMベースのプルーニングを用いることは、DRLベースまたは手動のハイパーパラメータ手法より優れているか。
  • RQ3経験に基づく探索でヒューリスティック探索は、ハイレート構造化プルーニングにおいてDRLより効果的か。
  • RQ4精製ステップは、精度損失なしに低振幅のカラム/フィルターとそれに依存するチャネルを削除して、さらなる重み/FLOPs削減にどのような影響を与えるか。

主な発見

  • AutoCompress は、同等の精度で最大33倍のプルーニング率(最大120倍のパラメータ削減)を達成し、従来の自動モデル圧縮法を凌駕する。
  • 構造化プルーニングの組み合わせ(フィルター+カラムプルーニング)は、フィルタープルーニング単独よりも重み/FLOPs の削減効果が大きい。
  • 強化SAベースのハイパーパラメータ決定は、DRLベースのアプローチや手動調整を上回り、より高いプルーニング率を達成する。
  • フェーズII の精製は、低振幅のカラム/フィルターとそれに依存するチャネルを削除することで、精度の低下なしに重みをさらに削減する。
  • CIFAR-10 や ImageNet において、AutoCompress は超高いプルーニング率とモバイルハードウェアでの推論速度の改善を実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。