[論文レビュー] Transform Quantization for CNN (Convolutional Neural Network) Compression
本稿では、CNN重みの事後学習圧縮のための変換量子化を提案し、学習された相関除去変換とビット深度割り当てを、レート・歪み枠組み内で最適化する。この手法は最先端の性能を達成し、AlexNet、ResNet、DenseNetなどのモデルを、最小限の精度損失で1〜2ビットの低ビットレートで効率的に圧縮可能である。
In this paper, we compress convolutional neural network (CNN) weights post-training via transform quantization. Previous CNN quantization techniques tend to ignore the joint statistics of weights and activations, producing sub-optimal CNN performance at a given quantization bit-rate, or consider their joint statistics during training only and do not facilitate efficient compression of already trained CNN models. We optimally transform (decorrelate) and quantize the weights post-training using a rate-distortion framework to improve compression at any given quantization bit-rate. Transform quantization unifies quantization and dimensionality reduction (decorrelation) techniques in a single framework to facilitate low bit-rate compression of CNNs and efficient inference in the transform domain. We first introduce a theory of rate and distortion for CNN quantization, and pose optimum quantization as a rate-distortion optimization problem. We then show that this problem can be solved using optimal bit-depth allocation following decorrelation by the optimal End-to-end Learned Transform (ELT) we derive in this paper. Experiments demonstrate that transform quantization advances the state of the art in CNN compression in both retrained and non-retrained quantization scenarios. In particular, we find that transform quantization with retraining is able to compress CNN models such as AlexNet, ResNet and DenseNet to very low bit-rates (1-2 bits).
研究の動機と目的
- 重みと活性化の統計的相関を無視する既存のCNN量子化手法の性能劣化を是正すること。
- 再訓練を伴わず、すでに学習済みのCNNモデルを効率的に低ビットレートで圧縮できること。
- 次元削減、量子化、プルーニングを1つのレート・歪み最適化フレームワーク内で統合すること。
- 重みの相関を除去し、最適なビット深度割り当てを可能にするエンドツーエンドの学習された変換(ELT)を導出すること。
提案手法
- 重みの圧縮を、ビットレート制約の下で出力歪みを最小化するレート・歪み最適化問題として定式化する。
- 重み行列に学習された相関除去変換(ELT)を適用し、冗長性を低減し、効率的な量子化を可能にする。
- 出力歪みを最小化するために、変換係数間のビット深度割り当てを最適化し、重みの摂動と出力誤差の関係を1次テイラー近似で結びつける。
- 意味のない係数をゼロに量子化する変換ドメイン表現を用い、プルーニングを模倣する。
- 最適な変換を、活性化と共変分散行列の積の一般化固有値分解として導出する。
- 異なる変換チャネルに異なるビット深度を割り当てることで、混合精度推論をサポートする。
実験結果
リサーチクエスチョン
- RQ1重みと活性化の連携統計を、事後学習段階で活用することで、CNN圧縮の効率を向上させられるか?
- RQ2変換とビット深度割り当ての両方を最適化することで、スカラー量子化のみに比べてより優れた圧縮性能が得られるか?
- RQ3学習された変換は、DCT や KLT といった古典的変換よりも、低ビットレートのCNN圧縮で優れた性能を発揮できるか?
- RQ4提案フレームワークは、多様なCNNアーキテクチャにおいて、再訓練あり・なしの両設定でどのように性能を発揮するか?
- RQ5最適な変換とKLT やSVD といった古典的変換との理論的関係は何か?
主な発見
- 変換量子化は、再訓練あり・なしの両設定において、AlexNet、ResNet、DenseNetを含むCNNに対して、最先端の圧縮性能を達成する。
- 再訓練を伴う場合、1〜2ビット/重みの圧縮を実現しながらも高い精度を維持し、先行研究を大きく上回る性能を示す。
- エンドツーエンドの学習された変換(ELT)は、理論的最適値に近い性能を達成し、AlexNetのキネック内変換符号化において最大19.8 dBの圧縮利得を実現する。
- 出力歪みを最小化するために導出された最適なビット深度割り当ては、均一なビット割り当てを上回り、低ビットレートでの性能向上をもたらす。
- このフレームワークは変換ドメインでの効率的な推論を可能にし、専用ハードウェア上で混合精度デプロイメントをサポートする。
- 理論的解析により、最適な変換が重みと共変分散行列の積の一般化固有値分解に等しいことが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。