[論文レビュー] Differentiable Soft Quantization: Bridging Full-Precision and Low-Bit Neural Networks
DSQ は 微分可能で進化するソフト量子化を導入し、全精度ネットワークと低ビットネットワークのギャップを埋め、1–4 ビット量子化の訓練安定性と精度を向上させ、ARM 展開をより速く可能にします。
Hardware-friendly network quantization (e.g., binary/uniform quantization) can efficiently accelerate the inference and meanwhile reduce memory consumption of the deep neural networks, which is crucial for model deployment on resource-limited devices like mobile phones. However, due to the discreteness of low-bit quantization, existing quantization methods often face the unstable training process and severe performance degradation. To address this problem, in this paper we propose Differentiable Soft Quantization (DSQ) to bridge the gap between the full-precision and low-bit networks. DSQ can automatically evolve during training to gradually approximate the standard quantization. Owing to its differentiable property, DSQ can help pursue the accurate gradients in backward propagation, and reduce the quantization loss in forward process with an appropriate clipping range. Extensive experiments over several popular network structures show that training low-bit neural networks with DSQ can consistently outperform state-of-the-art quantization methods. Besides, our first efficient implementation for deploying 2 to 4-bit DSQ on devices with ARM architecture achieves up to 1.7$\times$ speed up, compared with the open-source 8-bit high-performance inference framework NCNN. [31]
研究の動機と目的
- discreteness と勾配不一致のための低ビットネットワーク訓練の課題を動機づける。
- 訓練中に標準量子化を徐々に近似する微分可能な量子化関数を提案する。
- 切り捨て誤差と丸め誤差のバランスを取り、量子化損失を低減する。
- 効率的な 2–4 bit カーネルを用いたハードウェア寄りの展開を実現する。
- バイナリおよび一様量子化と互換性のある柔軟なフレームワークを提供する。
提案手法
- 標準量子化を近似する分岐した tanh ベース関数を用いて微分可能な漸近量子化器を定義する。
- DSQ の近似品質を制御する特性変数 alpha と、訓練中に alpha を最適化する evolving training 戦略を導入する。
- 切り捨て境界値 (l と u) を alpha と共に最適化し、切り捨てと丸め誤差のバランスを取る。
- DSQ 対象ネットワークの訓練のための誤差逆伝播方程式とアルゴリズムを提供する。
- ARM NEON 上でのハードウェア効率のよい 2–4 bit GEMM カーネルを展開で実証する。
実験結果
リサーチクエスチョン
- RQ1訓練中に正確な勾配を提供するように量子化を微分可能にするにはどうすればよいか。
- RQ2 進化する量子化関数は訓練を不安定にせずに全精度と低ビットネットワークを橋渡しできるか。
- RQ3 切り捨て境界と近似強度をどう管理して切り捨て誤差と丸め誤差のバランスをとるべきか。
- RQ4 CIFAR-10 と ImageNet で一般的なアーキテクチャに対する DSQ の性能向上はどれほどか。
- RQ5 DSQ はバイナリおよび一様量子化と既存の量子化手法と互換性があるか。
主な発見
- DSQ は CIFAR-10 および ImageNet において、最新の量子化手法より一貫して精度を向上させる。
- alpha の進化は DSQ が標準量子化を徐々に近似するのを助け、収束と安定性を改善する。
- 切り捨て値と alpha の同時最適化は切り捨て誤差と丸め誤差のバランスを取り、量子化損失を減らす。
- DSQ は 1/1 ビット量子化の性能を向上させ、PACT などの手法と相補的で、トップ1/トップ5 精度を高める。
- 効率的な 2–4 bit ARM NEON カーネルは推論を高速化し、ARM ハードウェア上で既存のオープンソースフレームワークを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。