QUICK REVIEW

[論文レビュー] Compression of Deep Convolutional Neural Networks for Fast and Low Power Mobile Applications

Yong‐Deok Kim, Eunhyeok Park|arXiv (Cornell University)|Nov 20, 2015

Advanced Neural Network Applications被引用数 681

ひとこと要約

本稿では、ランク選択に変分ベイジアン行列分解（VBMF）を組み合わせ、核テンソルの低ランク近似にタッカー分解を適用し、微調整を経て精度を回復させる、1回のショットで全ネットワークを圧縮する手法を提案する。この手法により、スマートフォン上で最大3.53倍のエネルギー消費削減と3.41倍の実行時間短縮が達成され、精度損失は最小限に抑えられ、圧縮モデルにおいて顕著なキャッシュ非効率性を示す1×1畳み込みの問題に対処する。

ABSTRACT

Although the latest high-end smartphone has powerful CPU and GPU, running deeper convolutional neural networks (CNNs) for complex tasks such as ImageNet classification on mobile devices is challenging. To deploy deep CNNs on mobile devices, we present a simple and effective scheme to compress the entire CNN, which we call one-shot whole network compression. The proposed scheme consists of three steps: (1) rank selection with variational Bayesian matrix factorization, (2) Tucker decomposition on kernel tensor, and (3) fine-tuning to recover accumulated loss of accuracy, and each step can be easily implemented using publicly available tools. We demonstrate the effectiveness of the proposed scheme by testing the performance of various compressed CNNs (AlexNet, VGGS, GoogLeNet, and VGG-16) on the smartphone. Significant reductions in model size, runtime, and energy consumption are obtained, at the cost of small loss in accuracy. In addition, we address the important implementation level issue on 1?1 convolution, which is a key operation of inception module of GoogLeNet as well as CNNs compressed by our proposed scheme.

研究の動機と目的

メモリ、電力、計算リソースに制限されたモバイルデバイスに深層畳み込みニューラルネットワーク（CNN）を効果的にデプロイする課題に対処すること。
AlexNet、VGG-S、GoogLeNet、VGG-16などの複雑なモデルを、モバイル推論に適した効率的な全ネットワーク圧縮を可能にすること。
公開ツールを用いて簡単に実装可能な、シンプルでエンドツーエンドの圧縮パイプラインを開発すること。
圧縮モデルにおけるキャッシュ効率と電力消費に与える1×1畳み込みの影響を分析すること。
モデルサイズ、推論時間、エネルギー消費を顕著に削減しつつ、精度の著しい低下を避けること。

提案手法

線形カーネルテンソルの再構成誤差を最小化するため、変分ベイジアン行列分解（VBMF）からのグローバルな解析的解を用いてランク選択が行われる。
各カーネルテンソルにタッカー分解を適用し、低ランク近似を実現することで、パラメータ数と計算コストを削減する。
ランク選択、分解、微調整を含む全圧縮パイプラインが1回のショットで実行され、反復的精錬を回避する。
圧縮による精度損失を回復させるために、ImageNet学習データセットを用いて微調整が実施される。
公開利用可能なツールを用いて実装されている：VBMF（Nakajima, 2015）、タッカー分解（Bader et al., 2015）、微調整にはCaffeが使用される。
特に、圧縮モデルに一般的に見られる1×1畳み込みによる性能ボトルネックに特に焦点を当てる。これは、GoogLeNetのインセプションモジュールにおいても顕著である。

実験結果

リサーチクエスチョン

RQ11回のショットでエンドツーエンドに圧縮可能な手法が、多様なCNNアーキテクチャにおいてモデルサイズ、推論時間、エネルギー消費を効果的に削減できるか？
RQ2他のランク選択手法と比較して、VBMFに基づくランク選択は、精度と効率の観点でどのように優れているか？
RQ3圧縮CNNにおける1×1畳み込みがキャッシュ効率とGPU電力消費に与える影響は何か？
RQ4微調整を伴うタッカー分解を用いることで、モデルの複雑さを低減しつつ、精度をどの程度保持できるか？
RQ5提案された圧縮手法は、カスタム開発を伴わず、標準的なディープラーニングツールを用いて容易に実装可能か？

主な発見

提案された圧縮手法は、4つのCNN（AlexNet、VGG-S、GoogLeNet、VGG-16）において、スマートフォン上で平均して3.41倍の実行時間短縮と3.53倍のエネルギー消費削減を達成した。
モデルサイズは顕著に削減され、パラメータ数の観点で最大3.68倍の圧縮率をVGG-Sで達成した。
GPUコアの電力消費は、1×1畳み込みの頻度の高さにより、キャッシュミスとスタックサイクルが増加し、コアの利用率が低下して電力消費が減少した。
主記憶装置の電力消費は、AlexNet や VGG-S などのモデルで数メガバイトにのぼる重みを含む全結合層を圧縮することで削減された。
理論的には効率的であるとされる1×1畳み込みでも、キャッシュ効率が低いため、スタックサイクルが増加し、GPUの利用率が低下し、理論的および実用的スピードアップの差が生じる。
圧縮後の微調整により、精度損失の大部分が回復された。これは、提案された圧縮パイプラインの堅牢性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。