QUICK REVIEW

[論文レビュー] DeepRebirth: Accelerating Deep Neural Network Execution on Mobile Devices

Dawei Li, Xiaolong Wang|arXiv (Cornell University)|Aug 16, 2017

Advanced Neural Network Applications被引用数 27

ひとこと要約

DeepRebirth は、プーリングや正規化などの非テンソル層を最適化することで、モバイルデバイス上の深層ニューラルネットワーク推論を高速化する。2つの新規な操作、ストリームラインスリミング（連続する非テンソル層とテンソル層を垂直方向に統合）およびブランチスリミング（並列な非テンソル層および小フィルタのテンソルブランチを水平方向に統合して1つの畳み込み層に統合）を採用。GoogLeNet では 3 倍以上の高速化と 2.5 倍のメモリ削減を達成し、トップ-5 精度は 0.4% の低下にとどまる。また、Samsung Galaxy S6 でも 65ms の推論時間で 86.5% のトップ-5 精度を達成し、SqueezeNet よりも高速かつ高精度である。

ABSTRACT

Deploying deep neural networks on mobile devices is a challenging task. Current model compression methods such as matrix decomposition effectively reduce the deployed model size, but still cannot satisfy real-time processing requirement. This paper first discovers that the major obstacle is the excessive execution time of non-tensor layers such as pooling and normalization without tensor-like trainable parameters. This motivates us to design a novel acceleration framework: DeepRebirth through "slimming" existing consecutive and parallel non-tensor and tensor layers. The layer slimming is executed at different substructures: (a) streamline slimming by merging the consecutive non-tensor and tensor layer vertically; (b) branch slimming by merging non-tensor and tensor branches horizontally. The proposed optimization operations significantly accelerate the model execution and also greatly reduce the run-time memory cost since the slimmed model architecture contains less hidden layers. To maximally avoid accuracy loss, the parameters in new generated layers are learned with layer-wise fine-tuning based on both theoretical analysis and empirical verification. As observed in the experiment, DeepRebirth achieves more than 3x speed-up and 2.5x run-time memory saving on GoogLeNet with only 0.4% drop of top-5 accuracy on ImageNet. Furthermore, by combining with other model compression techniques, DeepRebirth offers an average of 65ms inference time on the CPU of Samsung Galaxy S6 with 86.5% top-5 accuracy, 14% faster than SqueezeNet which only has a top-5 accuracy of 80.5%.

研究の動機と目的

プーリングや正規化などのパrameter-free な非テンソル層が、モバイル CPU 上で推論遅延のボトルネックを引き起こす問題を解消すること。
精度を損なわず、モバイル CPU 上での推論遅延とランタイムメモリ消費量を低減すること。
既存モデルを再構築することで、非テンソル層とテンソル層をより効率的な単一層の同等物に統合する、トレーニング後最適化フレームワークを構築すること。
非テンソル層の高速化により、実時間推論をモバイルデバイスで実現すること。これは、従来の圧縮技術でしばしば無視されがちな層である。
既存のモデル圧縮手法とシームレスに統合され、GoogLeNet や ResNet-50 といった最先端アーキテクチャでの性能向上を可能にすること。

提案手法

ストリームラインスリミングは、ReLU やプーリング、BatchNorm などの連続する非テンソル層と、それらに続く畳み込みなどのテンソル層を、1つの最適化された畳み込み層に統合する。
ブランチスリミングは、特に小フィルタ（例：1x1）と非テンソル層を有する並列ブランチを、1つの大きなフィルタ（例：5x5）の畳み込み層に水平方向に統合し、計算オーバーヘッドを低減する。
新しく生成された「スリム」層のパラメータは、層ごとのファインチューニングにより学習され、構造的再編成後のモデル精度を維持する。
理論的分析と実証的検証を活用して、統合プロセス中の精度劣化を最小限に抑える。
トレーニング後適用であり、再訓練が不要で、既存のディープラーニングモデルや圧縮パイプラインと互換性がある。
バッチ正規化層は、閉形式変換により直ちに直前の畳み込み層に統合され、精度損失なしにさらに 30–45% の高速化が達成される。

実験結果

リサーチクエスチョン

RQ1プーリングや正規化などの非テンソル層は、パrameter-free であるにもかかわらず、なぜモバイル CPU 上で推論遅延の主要因となるのか？
RQ2非テンソル層と隣接するテンソル層を統合することで、精度を損なわず推論時間とメモリ使用量を顕著に削減できるか？
RQ3提案手法であるストリームラインスリミングとブランチスリミングは、モバイルハードウェア上で GoogLeNet や ResNet-50 といった最先端モデルの推論をどれほど高速化できるか？
RQ4DeepRebirth は、他の圧縮技術と組み合わせることで、モバイルデバイス上で実時間推論を達成できる程度に効果的か？
RQ5複雑なマルチレイヤ構造の知識を、ファインチューニングにより簡略化された単一レイヤ同等物に効果的に転送できるか？

主な発見

GoogLeNet では、ImageNet 上でトップ-5 精度が 0.4% 低下するのみで、推論速度が 3 倍以上、ランタイムメモリ使用量が 2.5 倍削減された。
Samsung Galaxy S6 の CPU 上では、最適化済みモデルが 65ms の推論時間で 86.5% のトップ-5 精度を達成し、SqueezeNet よりも 14% 速く、6% 高精度であった。
ResNet-50 の conv1 および res2a 层では、推論遅延が 189ms から 104ms に短縮され、ランタイムメモリコストが 2.21 倍削減された。
バッチ正規化層は、直前の畳み込み層に直接統合可能であり、精度損失なしに追加で 30–45% の高速化が得られた。
フレームワークは複数のモデルで高い精度を維持しており、既存の圧縮技術と互換性があり、さらなる最適化が可能である。
統合後の層ごとのファインチューニングにより、精度劣化は最小限に抑えられ、ResNet-50 では 31.9% の圧縮率で 0.31% の精度損失にとどまった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。