[論文レビュー] PCONV: The Missing but Desirable Sparsity in DNN Weight Pruning for Real-time Execution on Mobile Devices
PCONVは、DNN重み剪定における新しいスパarsity次元を導入し、細粒度なキーネル内パターンと粗粒度なキーネル間接続性剪定を組み合わせることで、高い精度とハードウェア効率を実現する。提案されたコンパイラ支援型推論フレームワークは、精度を損なわずにモバイルGPUで最大39.2倍の高速化を達成し、VGG-16のような大規模モデルにおけるリアルタイム推論を可能にする。
Model compression techniques on Deep Neural Network (DNN) have been widely acknowledged as an effective way to achieve acceleration on a variety of platforms, and DNN weight pruning is a straightforward and effective method. There are currently two mainstreams of pruning methods representing two extremes of pruning regularity: non-structured, fine-grained pruning can achieve high sparsity and accuracy, but is not hardware friendly; structured, coarse-grained pruning exploits hardware-efficient structures in pruning, but suffers from accuracy drop when the pruning rate is high. In this paper, we introduce PCONV, comprising a new sparsity dimension, -- fine-grained pruning patterns inside the coarse-grained structures. PCONV comprises two types of sparsities, Sparse Convolution Patterns (SCP) which is generated from intra-convolution kernel pruning and connectivity sparsity generated from inter-convolution kernel pruning. Essentially, SCP enhances accuracy due to its special vision properties, and connectivity sparsity increases pruning rate while maintaining balanced workload on filter computation. To deploy PCONV, we develop a novel compiler-assisted DNN inference framework and execute PCONV models in real-time without accuracy compromise, which cannot be achieved in prior work. Our experimental results show that, PCONV outperforms three state-of-art end-to-end DNN frameworks, TensorFlow-Lite, TVM, and Alibaba Mobile Neural Network with speedup up to 39.2x, 11.4x, and 6.3x, respectively, with no accuracy loss. Mobile devices can achieve real-time inference on large-scale DNNs.
研究の動機と目的
- 高精度な非構造的剪定とハードウェア効率の良い構造的剪定の間のギャップを埋めるために、新しいスパarsity次元を導入すること。
- 既存の剪定手法の限界を克服すること。これらの手法は、構造的剪定では精度を犠牲にし、非構造的剪定ではハードウェア互換性を損なう。
- アルゴリズム的イノベーションと専用のコンパイラスタックを組み合わせることで、モバイルプラットフォームにおけるリアルタイムDNN推論を実現すること。
- 新しいスパarsity構造を最大限に活用する統合最適化フレームワークを開発し、モバイルCPUおよびGPUでの最高のパフォーマンスを実現すること。
提案手法
- 各畳み込みカーネル内で固定数の重みを剪定することで、ガウス型やラプラシアン型フィルタのような視覚的インスピレーションを受ける規則的なフィルタパターンを生成する、スパース畳み込みパターン(SCP)を導入する。
- キーネル間剪定による接続性スパarsityを実装し、完全な入力出力チャネル接続を削除することで、フィルタ長とワークロードのアンバランスを低減する。
- 計算グラフから最適化実行コードを生成するコンパイラ支援型DNN推論フレームワークを設計し、細粒度でレイヤー単位の最適化を可能にする。
- 高水準で細粒度なDNNレイヤー単位の情報抽出を実施し、コード生成とレイヤー間のワークロードバランスを最適化する。
- 実行コード生成を活用して、PCONVモデルを、キーネル内およびキーネル間の両方のスパarsityを活用する効率的かつハードウェアに最適化されたカーネルにマッピングする。
- 特にCPUおよびAdreno 640 GPUにおいて、メモリアクセスパターンや並列性などのハードウェア特徴を活用することで、モバイルプラットフォーム向けに最適化する。
実験結果
リサーチクエスチョン
- RQ1DNN重み剪定において、高精度とハードウェア効率の両立を図る新しいスパarsity次元を設計可能か?
- RQ2キーネル内パターン剪定とキーネル間接続性剪定を組み合わせることで、従来の構造的または非構造的手法よりも優れたパフォーマンスが得られるか?
- RQ3コンパイラ支援型フレームワークが、新しいスパarsity構造を完全に活用してモバイルデバイス上でのリアルタイム推論を達成可能か?
- RQ4異なるスパarsityパターンの数が、モデルの精度と推論速度に与える影響は何か?
- RQ5提案されたPCONVフレームワークは、最先端のモバイル推論フレームワークと比較して、最大どれほどのパフォーマンス向上が達成可能か?
主な発見
- PCONVは、VGG-16のモバイルGPU上でのTensorFlow-Lite(TFLite)比で最大39.2倍の高速化を達成し、精度に損失が生じない。
- モバイルCPU上では、TFLite比で9.4倍から39.2倍の高速化、TVM比で2.2倍から5.1倍、MNN比で1.7倍から6.3倍の高速化を達成する。
- GPU上では、TFLite比で2.2倍から18.0倍、TVM比で2.5倍から11.4倍、MNN比で1.5倍から5.8倍の高速化を達成する。
- ImageNet上のVGG-16では、GPU上で19.1msで推論を完了し、52.4フレーム/秒を達成し、リアルタイム要件を満たす。
- VGG-16の9種類のレイヤー型において、PCONVはCPUおよびGPUのGFLOPS性能においてMNNを上回り、より高いスループットを実現する。
- 設計されたSCPを用いる場合、パターン数の変動は精度にほとんど影響しない(精度損失は≤0.3%に留まる)が、ランダムなパターンではパフォーマンスが著しく低下する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。