QUICK REVIEW

[論文レビュー] Compressing Deep Convolutional Networks using Vector Quantization

Yunchao Gong, Liu Liu|arXiv (Cornell University)|Dec 18, 2014

Advanced Neural Network Applications参考文献 20被引用数 1,018

ひとこと要約

この論文では、特にk-meansクラスタリングとプロダクト量子化を用いたベクトル量子化を提案し、深層畳み込みニューラルネットワークの圧縮を図るものであり、主に全結合層のサイズ削減に焦点を当てる。ImageNet上で最大24倍の圧縮が達成され、精度低下は1%未満に抑えられ、大規模モデルのモバイルおよび組み込みデバイスへのデプロイが可能になる。

ABSTRACT

Deep convolutional neural networks (CNN) has become the most promising method for object recognition, repeatedly demonstrating record breaking results for image classification and object detection in recent years. However, a very deep CNN generally involves many layers with millions of parameters, making the storage of the network model to be extremely large. This prohibits the usage of deep CNNs on resource limited hardware, especially cell phones or other embedded devices. In this paper, we tackle this model storage issue by investigating information theoretical vector quantization methods for compressing the parameters of CNNs. In particular, we have found in terms of compressing the most storage demanding dense connected layers, vector quantization methods have a clear gain over existing matrix factorization methods. Simply applying k-means clustering to the weights or conducting product quantization can lead to a very good balance between model size and recognition accuracy. For the 1000-category classification task in the ImageNet challenge, we are able to achieve 16-24 times compression of the network with only 1% loss of classification accuracy using the state-of-the-art CNN.

研究の動機と目的

スマートフォンのようなリソース制約のあるデバイスに大規模な深層畳み込みニューラルネットワークモデルを格納する課題に対処すること。
推論速度の向上に焦点を当てているが、モデルサイズの削減には寄与しない既存の行列因子分解手法の限界を克服すること。
行列因子分解の代替手段として、ベクトル量子化技術を全結合層の圧縮に系統的に評価すること。
先行手法と比較して、高い圧縮比を維持しながら高い精度を達成できることを示すこと。
画像分類の他、画像リtrievalタスクを含む、より広範なタスクへの一般化性能を検証すること。

提案手法

全結合層の重みを離散的なコードブックに量子化するためにk-meansクラスタリングを適用し、パラメータの精度を低下させる。
プロダクト量子化（PQ）を用い、重みベクトルを部分ベクトルに分割し、それぞれを独立して量子化することで、高い圧縮率と低い誤差を実現する。
より高い再構成精度を達成するため、構造的量子化手法として残差量子化（RQ）を検討する。
元のCNNモデルを事前に学習した後、微調整なしに全結合層のみを量子化する。
高精度の重みの代わりに、量子化されたコードブックとインデックスのみを保存することで、モデルサイズを著しく削減する。
Holidaysデータセットにおける画像リtrieval評価のために、最終層から抽出した2048次元の特徴量のコサイン類似度を用いる。

実験結果

リサーチクエスチョン

RQ1行列因子分解と比較して、ベクトル量子化手法が、深層CNNのストレージ削減において優れていると言えるか？
RQ2k-meansベースのスカラー量子化と、プロダクト量子化のような構造的量子化手法の間で、圧縮率と精度の面でどのように差がつくか？
RQ3圧縮されたCNNは、画像リtrievalのような下流タスクにおいて、どの程度の性能を維持できるか？
RQ4異なる量子化戦略を用いた場合、圧縮比と精度損失のトレードオフはどの程度のものか？
RQ51ビットや2ビットの低ビット量子化（例：1-bitや2-bit）でも、実世界の応用において十分な表現能力を維持できるか？

主な発見

32個のクラスタ（1重みあたり5.3ビット）を用いたk-means量子化は、ImageNetで16倍の圧縮が達成され、トップ5精度の低下は0.5%にとどまる。
プロダクト量子化（PQ）は、ImageNetで最大24倍の圧縮が達成され、精度損失は1%未満で、行列因子分解手法を上回る性能を示した。
1ビットk-means量子化（2個のクラスタ）ですでに32倍の圧縮が達成され、HolidaysデータセットではmAPが67.61に達し、元の特徴量を上回った。
圧縮モデルは画像リtrievalタスクに対しても良好に一般化され、PQでは13.7倍の圧縮率でmAPが66.37に達し、元の66.43mAPに非常に近い結果を示した。
結果から、CNN内の有用なパラメータは非常に冗長であることが確認された—20倍の圧縮比は、約5%のパラメータが本質的であるという先行研究の結果とも整合的である。
残差量子化（RQ）は性能が低く、さらなる分析から除外された。これは、本タスクにおいてRQが効果的でないことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。