[論文レビュー] Trained Ternary Quantization
Trained Ternary Quantization (TTQ) は層ごとに3値の重みを学習可能な正および負のスケーリング係数とともに訓練し、約16倍のモデルサイズ削減を実現します。精度の低下は最小限で、CIFAR-10とImageNetでわずかな改善さえ見られます。
Deep neural networks are widely used in machine learning applications. However, the deployment of large neural networks models can be difficult to deploy on mobile devices with limited power budgets. To solve this problem, we propose Trained Ternary Quantization (TTQ), a method that can reduce the precision of weights in neural networks to ternary values. This method has very little accuracy degradation and can even improve the accuracy of some models (32, 44, 56-layer ResNet) on CIFAR-10 and AlexNet on ImageNet. And our AlexNet model is trained from scratch, which means it's as easy as to train normal full precision model. We highlight our trained quantization method that can learn both ternary values and ternary assignment. During inference, only ternary values (2-bit weights) and scaling factors are needed, therefore our models are nearly 16x smaller than full-precision models. Our ternary models can also be viewed as sparse binary weight networks, which can potentially be accelerated with custom circuit. Experiments on CIFAR-10 show that the ternary models obtained by trained quantization method outperform full-precision models of ResNet-32,44,56 by 0.04%, 0.16%, 0.36%, respectively. On ImageNet, our model outperforms full-precision AlexNet model by 0.3% of Top-1 accuracy and outperforms previous ternary models by 3%.
研究の動機と目的
- モデルサイズとエネルギー消費を削減して、モバイルデバイス上でディープニューラルネットワークを展開する動機付け。
- 重みに対して3値の値と3値割り当ての両方を学習する量子化法を導入する。
- 量子化を導くために、訓練中は潜在的な高精度重み表現を保持する。
- 層ごとのスケーリング係数と3値重みだけを用いて、推論を効率化する。
- CIFAR-10 および ImageNet において、フル精度モデルと同等またはそれを上回る精度を示す。
提案手法
- 各層のスケーリング係数 Wp_l と Wn_l を用いて、重みを {+Wp_l, 0, -Wn_l} に量子化する。
- 潜在の高精度重みとスケーリング係数の両方に勾配を逆伝播させ、3値の値と割り当てを学習する。
- Delta_l を、層の最大絶対重みと比例させた閾値で量子化し、層をまたぐ固定係数 t を用いる。
- 訓練中、Ip_l および In_l のインデックス集合の方程式を用いて勾配を Wp_l, Wn_l に逆伝播させ、コードブックと潜在的な重みを更新する。
- 推論時には高精度重みを破棄し、3値重みとスケーリング係数のみを用いて計算する。
- 固定閾値ヒューリスティックを用いてスパース性を探索し、訓練を通じた層ごとの Wp_l と Wn_l の挙動を示す。
実験結果
リサーチクエスチョン
- RQ1過度の量子化にもかかわらず、TTQ は CIFAR-10 および ImageNet においてフル精度ネットワークと同等以上の精度を維持または向上させることができるか?
- RQ2学習可能な3値の値と非対称のスケーリング因子は、モデル容量と学習ダイナミクスにどのように影響するか?
- RQ3一般的なアーキテクチャにおける実践的なTTQの圧縮とエネルギー効率の利点は何か?
- RQ4標準ベンチマーク上で、TTQ は従来の3値/2値量子化手法(例:TWN、DoReFa-Net)とどのように比較されるか?
主な発見
- TTQ は layer-wise scaling factors を用いた 2-bit の ternary 重みにより、パラメータサイズを 16x に削減する。
- CIFAR-10 で、TTQ は ResNet-32/44/56 の精度を、それぞれ 0.04%、0.16%、0.36% 向上させ、フル精度ベースラインを上回る。
- ImageNet では、AlexNet をゼロから学習させた TTQ が 42.5% Top-1 精度に達し、フル精度 AlexNet を 1.6% 上回り、報告された結果の Top-1 で prior ternary models を約 0.3% 上回る。
- TTQ は ImageNet で prior ternary networks (TWN) を約 3% Top-1 上回る。
- Wp_l ≠ Wn_l の非対称性はモデル容量を増加させ、3値重みはバックプロパゲーション中の学習率の乗数として機能する。
- 可視化は、低精度にもかかわらず学習された3値カーネルがエッジ/コーナー検出器の主要な検出機能を保持していることを示し、効果的な特徴抽出を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。