QUICK REVIEW

[論文レビュー] Training with Quantization Noise for Extreme Fixed-Point Compression

Angela Fan, Pierre Stock|arXiv (Cornell University)|Apr 15, 2020

Advanced Neural Network Applications被引用数 9

ひとこと要約

本論文は、標準的な int8 を超える極端な固定小数点圧縮を可能にするために、量子化ノイズを用いた深層ニューラルネットワークの訓練を提案する。ランダムサブセット上の確率的重み量子化により、バイアスのない勾配を実現する。この手法は、最先端の精度-圧縮トレードオフを達成し、14MB の RoBERTa モデルで MNLI の 82.5% の精度、3.3MB の EfficientNet-B3 で ImageNet のトップ-1 精度 80.0% を達成する。

ABSTRACT

We tackle the problem of producing compact models, maximizing their accuracy for a given model size. A standard solution is to train networks with Quantization Aware Training, where the weights are quantized during training and the gradients approximated with the Straight-Through Estimator. In this paper, we extend this approach to work beyond int8 fixed-point quantization with extreme compression methods where the approximations introduced by STE are severe, such as Product Quantization. Our proposal is to only quantize a different random subset of weights during each forward, allowing for unbiased gradients to flow through the other weights. Controlling the amount of noise and its form allows for extreme compression rates while maintaining the performance of the original model. As a result we establish new state-of-the-art compromises between accuracy and model size both in natural language processing and image classification. For example, applying our method to state-of-the-art Transformer and ConvNet architectures, we can achieve 82.5% accuracy on MNLI by compressing RoBERTa to 14MB and 80.0 top-1 accuracy on ImageNet by compressing an EfficientNet-B3 to 3.3MB.

研究の動機と目的

極めて圧縮制約下での高いモデル精度を達成すること、特に int8 量子化を超える状況での挑戦に応えること。
極端な量子化における Straight-Through Estimator (STE) の勾配近似誤差によって引き起こされる性能低下を克服すること。
制御された確率的ノイズを導入することで、Product Quantization を含む低精度固定小数点表現に対する有効な訓練を可能にすること。
自然言語処理およびコンピュータビジョンの両分野において、新たな最先端の精度-圧縮トレードオフを確立すること。

提案手法

各フォワードパスにおいて、重みの異なるランダムサブセットを確率的に量子化することで、制御されたノイズを導入し、バイアスのない勾配フローを可能にする。
勾配の正確さと圧縮効率のトレードオフを調整するためのノイズ制御メカニズムを用いる。
確率的量子化プロセスを考慮した修正された損失関数を用いて、訓練中にこの手法を適用する。
従来の STE が近似誤差が高いため失敗する、Product Quantization などの極端な圧縮技術へもこのアプローチを拡張する。
量子化されていない重みについてはフル精度の勾配を維持しつつ、量子化された重みはノイズを注入した勾配によって更新可能にする。
アーキテクチャの変更なしに、Transformer や ConvNets の標準的な訓練パイプラインにこの手法を統合する。

実験結果

リサーチクエスチョン

RQ1ランダムサブセット選択による確率的重み量子化は、極端な固定小数点量子化における勾配推定を改善できるか？
RQ2制御された量子化ノイズを導入することで、Product Quantization などの圧縮手法に対する有効な訓練が可能になるか？
RQ3提案手法は、自然言語処理および画像分類の両分野で最先端の精度-圧縮トレードオフを達成できるか？
RQ414MB の RoBERTa や 3.3MB の EfficientNet-B3 のような極端な圧縮下で、この手法はどのように性能を発揮するか？

主な発見

RoBERTa を 14MB に圧縮した場合、MNLI ベンチマークで 82.5% の精度を達成し、モデルサイズの観点で新たな最先端を記録した。
EfficientNet-B3 をわずか 3.3MB に圧縮した場合、ImageNet でトップ-1 精度 80.0% を達成し、従来手法を上回った。
Product Quantization などの極端な量子化においても、このアプローチは安定した訓練と高い性能を実現でき、STE が失敗する状況でも有効である。
ランダムサブセット量子化を用いることで、バイアスのない勾配が得られ、低精度学習における近似誤差が低減された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。