[論文レビュー] Joint Training of Low-Precision Neural Network with Quantization Interval Parameters
本論文では、低精度ニューラルネットワークの最適な量子化区間を学習するトレーニング可能な量子化器を提案する。タスク損失を直接最小化することで、4ビット、3ビット、2ビットの精度でも高い精度を維持する。この手法により、トレーニングデータにアクセスできない状態でも事前学習済みモデルの有効な量子化が可能となり、ResNet-18、-34、およびAlexNetのImageNetベンチマークにおいて、先行手法を上回る性能を発揮する。
Reducing bit-widths of activations and weights of deep networks makes it efficient to compute and store them in memory, which is crucial in their deployments to resource-limited devices, such as mobile phones. However, decreasing bit-widths with quantization generally yields drastically degraded accuracy. To tackle this problem, we propose to learn to quantize activations and weights via a trainable quantizer that transforms and discretizes them. Specifically, we parameterize the quantization intervals and obtain their optimal values by directly minimizing the task loss of the network. This quantization-interval-learning (QIL) allows the quantized networks to maintain the accuracy of the full-precision (32-bit) networks with bit-width as low as 4-bit and minimize the accuracy degeneration with further bit-width reduction (i.e., 3 and 2-bit). Moreover, our quantizer can be trained on a heterogeneous dataset, and thus can be used to quantize pretrained networks without access to their training data. We demonstrate the effectiveness of our trainable quantizer on ImageNet dataset with various network architectures such as ResNet-18, -34 and AlexNet, on which it outperforms existing methods to achieve the state-of-the-art accuracy.
研究の動機と目的
- 深層ニューラルネットワークにおける低ビット量子化による顕著な精度低下を是正すること。
- トレーニング中に最適な量子化区間を学習するトレーニング可能な量子化器を開発すること。
- 元のトレーニングデータにアクセスできない状態でも、事前学習済みモデルの量子化を可能にすること。
- 2ビット、3ビットなどの超低ビット幅でも高い精度を維持し、性能低下を最小限に抑えること。
- ImageNetなどの標準ベンチマークで、既存の量子化手法を上回ること。
提案手法
- 量子化区間をネットワーク内での学習可能なパラメータとしてパrameter化する。
- 微分可能リラクゼーションを用いて、量子化関数を逆伝播可能にすることで、量子化区間をエンドツーエンドで最適化する。
- 学習された区間を用いて、活性化値と重みの両方を変換・離散化する。
- 量子化区間を勾配降下法で更新しながら、低精度ネットワークと同時に訓練できる。
- 異種のデータセットをサポートし、転移学習や事前学習済みモデルの量子化を可能にする。
- 量子化器はタスク全体の損失を用いて学習され、ネットワークの目的と整合性を保つ。
実験結果
リサーチクエスチョン
- RQ1トレーニング中に量子化区間を効果的に学習することで、低精度ネットワークの精度低下を軽減できるか?
- RQ22ビットおよび3ビットにビット幅を短縮した場合、提案手法がどれほど高い精度を維持できるか?
- RQ3元のトレーニングデータにアクセスできない状態でも、量子化器を事前学習済みモデルに適用できるか?
- RQ4ImageNetなどの標準ベンチマークで、既存の量子化技術を上回る性能を発揮するか?
- RQ5ResNet や AlexNet などの異なるネットワークアーキテクチャに、この手法が一般化可能か?
主な発見
- 提案手法は、4ビット精度でImageNetにおいて最先端の精度を達成し、32ビットのフル精度ネットワークと同等の性能を発揮する。
- 既存の手法と比較して、3ビットや2ビットにさらにビット幅を短縮した場合の精度低下が顕著に軽減される。
- 元のトレーニングデータにアクセスできない状態でも、事前学習済みネットワークの量子化において高い精度を維持する。
- ResNet-18、ResNet-34、およびAlexNetアーキテクチャにおいて、既存の量子化技術を上回る性能を発揮する。
- 量子化区間のエンドツーエンド微分可能トレーニングにより、固定またはヒューリスティックな区間設定よりも優れた収束性と性能が得られる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。