[論文レビュー] Convolutional Neural Networks using Logarithmic Data Representation
本論文は、対数ドメイン表現を導入して重みと活性化を3–4ビット程度まで量子化し、乗算器を減らすとともにほぼ浮動小数点精度を実現する方法を提案し、対数ベースの量子化を用いたエンドツーエンドの学習を実証する。
Recent advances in convolutional neural networks have considered model complexity and hardware efficiency to enable deployment onto embedded systems and mobile devices. For example, it is now well-known that the arithmetic operations of deep networks can be encoded down to 8-bit fixed-point without significant deterioration in performance. However, further reduction in precision down to as low as 3-bit fixed-point results in significant losses in performance. In this paper we propose a new data representation that enables state-of-the-art networks to be encoded to 3 bits with negligible loss in classification performance. To perform this, we take advantage of the fact that the weights and activations in a trained network naturally have non-uniform distributions. Using non-uniform, base-2 logarithmic representation to encode weights, communicate activations, and perform dot-products enables networks to 1) achieve higher classification accuracies than fixed-point at the same resolution and 2) eliminate bulky digital multipliers. Finally, we propose an end-to-end training procedure that uses log representation at 5-bits, which achieves higher final test accuracy than linear at 5-bits.
研究の動機と目的
- 非一様な重み/活性化分布を利用して低精度CNNを動機づける。
- 活性化、重み、ドット積の対数ドメイン表現を提案し、ハードウェアの複雑さを削減する。
- 3–4ビット量子化と固定小数点のベースラインと比較して、精度の改善または同等を実証する。
- 動的レンジと精度のバランスを取るために、対数基数の異なる(例:base-2、base-√2)を検討する。
- 対数ドメイン表現と量子化勾配を用いたエンドツーエンドの学習手順を提示する。
提案手法
- ドット積を対数ドメインで表現し、乗算器をビットシフトで置換する(2つのバリアント:単一オペランド対数と二重オペランド対数)。
- LogQuant層を用いて活性化と重みをlog2空間で量子化し、同等のビット幅について線形量子化と比較する。
- 小さな x に対して log(1+x) ≈ x を利用して対数ドメインでの蓄積戦略を用い、和を近似する。
- 動作演算を異なる基数(base-2 および base-√2)に一般化し、広い動的範囲をより細かな精度で捉える。
- 勾配を含む対数ドメイン表現を用いたエンドツーエンドの学習アプローチを開発する(アルゴリズム1)。
- ILSVRC-2012 の AlexNet と VGG16、および CIFAR-10 に対して 5-bit の log-network で評価する。
実験結果
リサーチクエスチョン
- RQ1ImageNet モデルで、活性化と重みの3-bit の対数ドメイン表現は、32-bit 浮動小数点ネットと同等の top-5 精度を達成できるか?
- RQ2AlexNet と VGG16 における精度と頑健性の観点から、対数ドメイン量子化は線形量子化とどう比較されるか?
- RQ3base-√2 の対数表現は、base-2 より実用的な利点を提供し、より細かな粒度で大きな動的範囲を捉えるのか?
- RQ4勾配を量子化したエンドツーエンド学習を含む対数ドメイン量子化は、性能の大幅な損失を伴わずに実現可能か?
- RQ5対数ドメインで畳み込み層と全結合層の重みを量子化した場合のネットワークサイズと精度のトレードオフは何か?
主な発見
- 3-bit の対数活性化は AlexNet と VGG16 で FP の性能近くを達成し、32-bit float と比較して小さな損失となる。
- AlexNet では、3-bit log activations が 76.9% の top-5 (fsr=7) を示し、78.3% FP32 と比較される;3-bit linear は 77.1% (fsr=5)。
- VGG16 では、3-bit log activations が 89.2% top-5 (fsr=6) を示し、89.8% FP32 と比較される;3-bit linear は 83.0% (fsr=3)。
- 4-bit log activations は VGG16 で FP32 の性能を回復させる(89.8% top-5, fsr=11)し、AlexNet よりも 4-bit linear よりも優れている。
- 畳み込み層の 5-bit 重み量子化における base-2 対 base-√2 は、base-√2 が顕著に精度を向上させる(AlexNet: 70.6% base-2 対 75.1% base-√2;VGG16: 83.4% base-2 対 89.0% base-√2)。
- CIFAR-10 での対数ドメイン表現(5-bit 活性化/重み/勾配を用いた学習)は、テスト精度が 0.9379 の log、0.9253 の linear、0.8862 の BinaryNet。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。