QUICK REVIEW

[論文レビュー] Towards the Limit of Network Quantization

Yoojin Choi, Mostafa El‐Khamy|arXiv (Cornell University)|Dec 5, 2016

Advanced Image and Video Retrieval Techniques参考文献 25被引用数 62

ひとこと要約

本稿では、圧縮比制約下でのパフォーマンス損失を最小限に抑えるために、ヘシアン重み付きk-meansクラスタリングおよびエントロピー制約付きスカラーサンプリング（ECSQ）を用いた深層ニューラルネットワークの量子化手法を提案する。ヘシアン行列を用いて量子化誤差に重みを付けることで、Huffman符号化と組み合わせることで、LeNetで51.25×、ResNetで22.17×、AlexNetで40.65×の圧縮比を達成し、精度の低下はほとんどない。

ABSTRACT

Network quantization is one of network compression techniques to reduce the redundancy of deep neural networks. It reduces the number of distinct network parameter values by quantization in order to save the storage for them. In this paper, we design network quantization schemes that minimize the performance loss due to quantization given a compression ratio constraint. We analyze the quantitative relation of quantization errors to the neural network loss function and identify that the Hessian-weighted distortion measure is locally the right objective function for the optimization of network quantization. As a result, Hessian-weighted k-means clustering is proposed for clustering network parameters to quantize. When optimal variable-length binary codes, e.g., Huffman codes, are employed for further compression, we derive that the network quantization problem can be related to the entropy-constrained scalar quantization (ECSQ) problem in information theory and consequently propose two solutions of ECSQ for network quantization, i.e., uniform quantization and an iterative solution similar to Lloyd's algorithm. Finally, using the simple uniform quantization followed by Huffman coding, we show from our experiments that the compression ratios of 51.25, 22.17 and 40.65 are achievable for LeNet, 32-layer ResNet and AlexNet, respectively.

研究の動機と目的

従来のk-meansクラスタリングが、量子化誤差がネットワーク損失に与える影響を無視するという非最適性に対処する。
固定圧縮比制約下でのパフォーマンス損失を、ヘシアン行列による誤差影響のモデル化により最小化する。
情報理論におけるエントロピー制約付きスカラーサンプリング（ECSQ）とネットワーク量子化の理論的関連付けを確立する。
すべてのネットワーク層を同時に統合的に量子化することで、層ごとの最適化を回避し、圧縮効率を向上させる。
実世界の展開を想定し、Adam最適化法に既存の勾配の2次モーメント推定値を用いたヘシアンの低コスト代替手法を提供する。

提案手法

ヘシアン行列を用いて、パrameterの損失変化に対する感受性を測定することで、ヘシアン重み付き歪みの最小化としてネットワーク量子化を定式化する。
高い影響を持つパラメータが低い誤差で量子化されるよう、パラメータをグループ化するヘシアン重み付きk-meansクラスタリングを提案する。
最適な可変長符号（例：Huffman符号化）を用いる場合、圧縮比制約下での量子化問題をエントロピー制約付きスカラーサンプリング（ECSQ）問題として再定式化する。
ECSQに対する2つのヒューリスティックな解決策を導入：均等量子化とLloyd法にインspiredした反復的アルゴリズム。
トレーニング中にAdam最適化法で既に利用可能な勾配の2次モーメント推定値の平方根を、ヘシアンの低コストな近似として用いる。
すべてのネットワーク層を同時に統合的に量子化することで、層ごとの圧縮レートチューニングを不要とし、グローバル最適化を可能にする。

実験結果

リサーチクエスチョン

RQ1固定圧縮比制約下で、深層ニューラルネットワークにおける量子化誤差をどのように最適に最小化できるか？
RQ2ネットワーク損失への影響を反映する適切な量子化誤差の重み付け指標は何か？
RQ3ネットワーク量子化問題は、情報理論におけるデータ圧縮問題（例：ECSQ）と正式に接続可能か？
RQ4すべての層を同時に量子化する方法と、層ごとに逐次量子化する方法とでは、パフォーマンスおよび圧縮効率においてどのように異なるか？
RQ5ヘシアン行列の代替として、精度を損なわずに効果的に使用できる低コストな手法は存在するか？

主な発見

ヘシアン重み付きk-meansクラスタリングは、固定長符号化を用いる場合、標準的なk-meansよりもパフォーマンス損失をより効果的に低減する。
Huffman符号化と組み合わせた場合、均等量子化と反復的ECSQアルゴリズムは、ヘシアン重み付きk-meansを上回る性能を示す。これは、可変長符号に最適化された手法であるためである。
ヘシアンの推定に1,000サンプルしか使用しなくても、バッチ全体での推定とほぼ同等の性能が得られ、計算効率が非常に高い。
勾配の2次モーメント推定値の平方根は、追加コストなしにヘシアンの優れた低コスト代替となり、性能も同等である。
すべての層を同時に量子化することで、LeNetで51.25×、32層のResNetで22.17×、AlexNetで40.65×という優れた圧縮比を達成し、元の精度にほぼ近い性能を維持した。
提案手法は先行研究（例：Han et al., 2015a）を上回る圧縮比を達成した。LeNetでは51.25× vs. 39.00×、ResNetでは22.17× vs. N/A（同等設定下）である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。