QUICK REVIEW

[論文レビュー] Quantized Convolutional Neural Networks for Mobile Devices

Jiaxiang Wu, Cong Leng|arXiv (Cornell University)|Dec 21, 2015

Advanced Neural Network Applications参考文献 27被引用数 32

ひとこと要約

本稿では、畳み込み層および全結合層の重みを量子化することにより、畳み込みニューラルネットワークの高速化と圧縮を統合的に実現するQ-CNN（Quantized CNN）というフレームワークを提案する。量子化時の層出力推定誤差を最小化し、誤差蓄積を抑える学習手法を用いることで、Q-CNNは1%未満の精度低下で4–6×の高速化と15–20×のモデル圧縮を達成し、モバイルデバイス上でリアルタイムの画像分類を可能にする。

ABSTRACT

Recently, convolutional neural networks (CNN) have demonstrated impressive performance in various computer vision tasks. However, high performance hardware is typically indispensable for the application of CNN models due to the high computation complexity, which prohibits their further extensions. In this paper, we propose an efficient framework, namely Quantized CNN, to simultaneously speed-up the computation and reduce the storage and memory overhead of CNN models. Both filter kernels in convolutional layers and weighting matrices in fully-connected layers are quantized, aiming at minimizing the estimation error of each layer's response. Extensive experiments on the ILSVRC-12 benchmark demonstrate 4~6x speed-up and 15~20x compression with merely one percentage loss of classification accuracy. With our quantized CNN model, even mobile devices can accurately classify images within one second.

研究の動機と目的

モバイルデバイス上での深層CNNの高い計算およびメモリ要件に対処すること。
CNNの畳み込み層および全結合層の両方を同時に高速化および圧縮すること。
応答推定誤差の最小化により、モデル量子化時の分類精度の低下を最小限に抑えること。
複数の量子化層にわたる誤差蓄積を抑える学習手法を開発すること。
量子化モデルを用いてモバイルプラットフォーム上でリアルタイム推論を実証すること。

提案手法

畳み込み層のフィルターコンボリューションカーネルおよび全結合層の重み行列を量子化し、近似内積計算を効率化すること。
量子化時の各層の応答推定誤差を最小化することで、モデル性能を維持すること。
直前の層の推定誤差を考慮した学習手法を導入し、深層ネットワークにおける累積誤差を低減すること。
異なる層に異なるビット幅を適用するハイブリッド量子化戦略を採用：畳み込み層は8ビット、全結合層は3–4ビット。
全結合層において低ランク近似とパラメータのプルーニングを適用し、さらにモデルサイズを削減すること。
GPU加速なしのCPUオンリー推論を用いて、モバイルデバイス上に量子化モデルを実装すること。

実験結果

リサーチクエスチョン

RQ1畳み込み層および全結合層の共同量子化により、CNNにおける推論の高速化とモデルサイズの縮小を同時に達成できるか？
RQ2応答推定誤差を各層で最小化しつつ、分類精度を維持するように量子化を最適化する方法は何か？
RQ3複数の量子化層にわたる誤差蓄積の影響は何か？そして、学習段階でどのようにしてこれを緩和できるか？
RQ4量子化CNNは、最小限の精度損失で、どの程度の範囲でモバイルデバイス上でリアルタイム推論を達成できるか？
RQ5標準ベンチマークにおいて、Q-CNNの性能はベースラインの量子化および圧縮手法と比べてどのように異なるか？

主な発見

ILSVRC-12ベンチマークにおいて、Q-CNNは4.05×から5.78×の高速化と15.40×から20.34×の圧縮を達成し、トップ5精度損失は1%未満であった。
Huawei Mate 7スマートフォンでは、Q-CNNにより推論時間をAlexNetの2.93秒から0.95秒、CNN-Sの10.58秒から2.61秒に短縮し、3–4×の高速化を達成した。
ストレージ消費量は、元のAlexNetの232.56MBからQ-CNNの12.60MBにまで低下し、15.4倍の削減が達成された。メモリ使用量も264.74MBから74.65MBに減少した。
VGG-16では、Q-CNNが4.06×の高速化と20.34×の圧縮を達成し、トップ5誤差率はわずか0.58%上昇したにとどまった。
本フレームワークにより、GPU加速なしでもモバイルデバイス上で1秒以内に画像分類を実行するリアルタイム推論が可能になった。
CPUオンリー環境における実際の高速化は理論的推定値よりもわずかに低かったが、SIMDやAVXを活用したさらなる最適化の余地があることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。