Skip to main content
QUICK REVIEW

[論文レビュー] Pruning and Quantization for Deep Neural Network Acceleration: A Survey

Tailin Liang, John Glossner|arXiv (Cornell University)|Jan 24, 2021
Advanced Neural Network Applications参考文献 156被引用数 50
ひとこと要約

このサーベイは、ディープニューラルネットワークを加速するための剪定と量子化技術を評価し、静的/動的剪定を比較し、フレームワーク全体での精度結果を詳述する。

ABSTRACT

Deep neural networks have been applied in many applications exhibiting extraordinary abilities in the field of computer vision. However, complex network architectures challenge efficient real-time deployment and require significant computation resources and energy costs. These challenges can be overcome through optimizations such as network compression. Network compression can often be realized with little loss of accuracy. In some cases accuracy may even improve. This paper provides a survey on two types of network compression: pruning and quantization. Pruning can be categorized as static if it is performed offline or dynamic if it is performed at run-time. We compare pruning techniques and describe criteria used to remove redundant computations. We discuss trade-offs in element-wise, channel-wise, shape-wise, filter-wise, layer-wise and even network-wise pruning. Quantization reduces computations by reducing the precision of the datatype. Weights, biases, and activations may be quantized typically to 8-bit integers although lower bit width implementations are also discussed including binary neural networks. Both pruning and quantization can be used independently or combined. We compare current techniques, analyze their strengths and weaknesses, present compressed network accuracy results on a number of frameworks, and provide practical guidance for compressing networks.

研究の動機と目的

  • ネットワーク圧縮の必要性を動機づけ、リアルタイム展開とエネルギーコストの削減を、精度の大幅な損失を伴わずに実現する。
  • 剪定と量子化技術を分類・分析し、ネットワークの粒度と展開シナリオにおけるトレードオフを評価する。
  • 畳み込みニューラルネットワークへの剪定と量子化の実用的な適用指針を提供する。
  • フレームワーク間での圧縮手法の性能を比較し、それぞれの長所と短所を強調する。

提案手法

  • 静的(オフライン)と動的(ランタイム)剪定に分類し、基準と影響を論じる。
  • Magnitude-based および penalty-based 剪定手法を含め、適用可能な場合には l1/L2 正則化および Hessian-based の方法を含めて論じる。
  • 形状ごと、フィルターごと、チャネルごと、その他の粒度オプションと、それらがスパース性と精度に与える影響を説明する。
  • 8ビットからより低いビット幅までの量子化スキームを説明し、バイナリネットワークを検討し、フレームワーク間比較を含む。
  • 剪定と量子化を独立して、あるいは組み合わせて使用する方法を要約し、実用的な圧縮ガイドラインを提供する。

実験結果

リサーチクエスチョン

  • RQ1CNN の加速のための主な剪定と量子化技術は何であり、オフラインとランタイム展開ではどう異なるか。
  • RQ2要素ごと、チャネルごと、フィルターごと、層ごとといった粒度の選択が、スパース性、精度、ハードウェア性能にどう影響するか。
  • RQ3一般的な CNN ベンチマークとフレームワーク全体で剪定および/または量子化を適用した場合の典型的な精度影響はどの程度か。
  • RQ4実際の展開で剪定と量子化を選択・適用する際に提供できる実用的なガイドラインは何か。

主な発見

  • 剪定と量子化は補完的な技術で、独立しても組み合わせても CNN 推論を加速できる。
  • 静的剪定と動的剪定は、オフラインとランタイム最適化で異なるトレードオフを提供し、スパース性と精度にさまざまな影響を与える。
  • 異なる剪定の粒度(要素ごと、チャネルごと、フィルターごと、層ごと)は、異なるスパース性パターンとハードウェアへの影響を生み出す。
  • 量子化は通常、精度を 8-bit 整数にまで低減するが、より低いビット幅やバイナリネットワークにも拡張でき、精度に異なる影響を与える。
  • 本サーベイは現状の最先端手法とフレームワークを比較し、実用的な圧縮戦略に関する指針を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。