QUICK REVIEW

[論文レビュー] Fixed Point Quantization of Deep Convolutional Networks

Darryl Dexu Lin, Sachin S. Talathi|arXiv (Cornell University)|Nov 19, 2015

Advanced Neural Network Applications参考文献 26被引用数 606

ひとこと要約

本稿では、深層畳み込みネットワーク（DCN）の固定小数点量子化のための最適化手法を提案する。信号対量子化雑音比（SQNR）を用いて、層ごとの最適なビット幅割り当てを決定する。CIFAR-10で精度損失なしに20％以上のモデルサイズ削減を達成し、微調整後に6.78％の誤差率を達成し、最新の最先端水準を更新。これにより、効率的な埋め込みデプロイメントに向けたSQNR駆動のビット幅割り当ての有効性が示された。

ABSTRACT

In recent years increasingly complex architectures for deep convolution networks (DCNs) have been proposed to boost the performance on image recognition tasks. However, the gains in performance have come at a cost of substantial increase in computation and model storage resources. Fixed point implementation of DCNs has the potential to alleviate some of these complexities and facilitate potential deployment on embedded hardware. In this paper, we propose a quantizer design for fixed point implementation of DCNs. We formulate and solve an optimization problem to identify optimal fixed point bit-width allocation across DCN layers. Our experiments show that in comparison to equal bit-width settings, the fixed point DCNs with optimized bit width allocation offer >20% reduction in the model size without any loss in accuracy on CIFAR-10 benchmark. We also demonstrate that fine-tuning can further enhance the accuracy of fixed point DCNs beyond that of the original floating point model. In doing so, we report a new state-of-the-art fixed point performance of 6.78% error-rate on CIFAR-10 benchmark.

研究の動機と目的

埋め込み型およびリアルタイム応用における深層畳み込みネットワーク（DCN）の増大する計算およびストレージ要件に対処すること。
再トレーニングを必要とせず、事前学習済みの浮動小数点DCNを固定小数点モデルに変換する体系的な手法を開発すること。これにより、リソース制限のあるハードウェア上での効率的なデプロイメントを可能にする。
分類精度を維持しつつ、モデルサイズを最小限に抑えるために、DCNの各層におけるビット幅割り当てを最適化すること。
SQNRに基づくビット幅割り当てが均一ビット幅スキームを上回ることを検証し、微調整によりさらなる精度向上が可能であることを示すこと。

提案手法

量子化ノイズの主要指標としてSQNRを用い、許容可能な精度低下の上限を満たす条件下でモデルサイズを最小化する最適化問題を定式化する。
重みおよび活性化のビット幅と量子化効率（κ）に基づいて理論的SQNR式を導出。これにより、層ごとの量子化ノイズを予測可能となる。
SQNR予測に基づき、感度が低い層には少ないビット数、重要度の高い層には多いビット数を割り当てる、層間のビット幅最適化戦略を適用する。
全探索を回避するため、事前計算による層間のビット幅関係を解析的に算出。これにより、効率的かつスケーラブルなデプロイメントが可能となる。
複数の層にわたり実測値と比較してSQNR予測の妥当性を検証。わずかな数値的ずれは存在するが、トレンドは一貫している。
量子化ノイズの正則化効果を活用し、量子化後に微調整を実施することで、精度をさらに向上させる。

実験結果

リサーチクエスチョン

RQ1SQNRに基づくビット幅割り当ては、均一ビット幅量子化に比べ、精度損失なしにモデルサイズ削減を達成できるか？
RQ2提案手法は、標準ベンチマーク上での分類精度を維持しつつ、モデルサイズをどの程度削減できるか？
RQ3固定小数点変換後に微調整を実施することで、元の浮動小数点モデルを上回る精度が達成できるか？
RQ4本手法は、CIFAR-10やAlexNetに類似したネットワークアーキテクチャといった、さまざまなネットワーク構造にどの程度一般化可能か？

主な発見

提案手法によるSQNRに基づくビット幅最適化により、CIFAR-10ベンチマークで等価ビット幅設定と比較して、20％以上のモデルサイズ削減が達成され、精度損失なしに実現された。
微調整後、CIFAR-10で6.78％の誤差率を達成し、最新の最先端水準を更新。元の浮動小数点モデルの性能を上回った。
量子化後に微調整を実施した結果、精度が向上。特に（float, 8b）設定で6.78％の誤差率を達成し、元の浮動小数点モデルの6.98％を下回った。
理論的SQNR予測値は、測定値とトレンドがよく一致しており、わずかな数値的ずれは存在するが、モデルの信頼性が裏付けられた。
モデルサイズが畳み込み層に支配されている場合に、最適化が最も効果的であり、その他のコンponents（例：全結合層）が支配的である場合には、やや効果が薄い。
本手法により、任意の事前学習済みDCNを、トレーニングデータやフレームワークへのアクセスなしに、効率的かつオフラインで固定小数点モデルに変換可能であり、埋め込みデプロイメントに適した形で利用可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。