Skip to main content
QUICK REVIEW

[論文レビュー] HAWQ-V2: Hessian Aware trace-Weighted Quantization of Neural Networks

Zhen Dong, Zhewei Yao|arXiv (Cornell University)|Nov 10, 2019
Advanced Neural Network Applications参考文献 25被引用数 53
ひとこと要約

HAWQ-V2は、層感度の指標としてハessianのトレース(固有値の平均)を用いることで、Hessianベースの混合精度量子化を拡張し、Pareto frontierを用いて層ごとのビット精度を自動選択し、活性化量子化を可能にする。手動設定なしで最先端の結果を達成する。

ABSTRACT

Quantization is an effective method for reducing memory footprint and inference time of Neural Networks, e.g., for efficient inference in the cloud, especially at the edge. However, ultra low precision quantization could lead to significant degradation in model generalization. A promising method to address this is to perform mixed-precision quantization, where more sensitive layers are kept at higher precision. However, the search space for a mixed-precision quantization is exponential in the number of layers. Recent work has proposed HAWQ, a novel Hessian based framework, with the aim of reducing this exponential search space by using second-order information. While promising, this prior work has three major limitations: (i) HAWQV1 only uses the top Hessian eigenvalue as a measure of sensitivity and do not consider the rest of the Hessian spectrum; (ii) HAWQV1 approach only provides relative sensitivity of different layers and therefore requires a manual selection of the mixed-precision setting; and (iii) HAWQV1 does not consider mixed-precision activation quantization. Here, we present HAWQV2 which addresses these shortcomings. For (i), we perform a theoretical analysis showing that a better sensitivity metric is to compute the average of all of the Hessian eigenvalues. For (ii), we develop a Pareto frontier based method for selecting the exact bit precision of different layers without any manual selection. For (iii), we extend the Hessian analysis to mixed-precision activation quantization. We have found this to be very beneficial for object detection. We show that HAWQV2 achieves new state-of-the-art results for a wide range of tasks.

研究の動機と目的

  • 一般化を維持しつつ、量子化によってメモリと計算量を削減する動機付け。
  • 上位固有値だけでなく、全体のHessianスペクトルを活用して混合精度量子化を改善する。
  • 手動調整なしで各層の正確なビット精度を自動選択する。
  • Hessianベースの解析を活性化量子化へ拡張する。
  • ImageNetおよびCOCOタスクで最先端の量子化性能を示す。

提案手法

  • トレース(Hessian固有値の平均)を、トップ固有値の代わりに層ごとの感度指標として用いる。
  • Hutchinsonのランダム化アルゴリズムを適用して、フルHessianを作成せずにHessianトレースを効率的に推定する。
  • 検索空間を縮小した状態から層ごとの正確なビット精度を自動的に選択するためのPareto-frontierベースの手法を導入する。
  • activationsに対するHessianを分析し、マトリックスフリーのトレース推定アプローチを採用して、混合精度の活性化量子化フレームワークへ拡張する。
  • ネットワーク(Inception-V3、ResNet-50、SqueezeNext)を量子化し、ImageNetで評価し、COCOのRetinaNet with ResNet-50バックボーンをテストする。

実験結果

リサーチクエスチョン

  • RQ1Hessianトレースは、量子化判断のための層感度を、トップのHessian固有値よりもよく表すだろうか?
  • RQ2Pareto-frontierベースの自動的な層ごとのビット精度選択は、手動で選択した設定に達するかそれを上回るか?
  • RQ3重みと活性化のHessianトレースを効率的に計算して、実用的な混合精度量子化を可能にすることはできるか?
  • RQ4混合精度の活性化量子化は、特に物体検出タスクで性能を改善するか?
  • RQ5従来の量子化手法と比較して、ImageNet、COCOでHAWQ-V2は標準ベンチマークでどのように性能を示すか?

主な発見

  • 平均Hessianトレースは、層の量子化判断におけるトップ固有値よりも優れた感度指標を提供する。
  • Hessiansトレースは、Hutchinsonのアルゴリズムで効率的に推定可能であり(例:ResNet50の54層で4GPUを用いて約30分)、実用的。
  • Pareto-frontierアプローチにより、手動調整なしで層ごとの正確なビット精度を自動選択できる(例では探索空間を指数関数的に削減)。
  • HAWQ-V2はImageNetでInception-V3(75.68% Top-1, 7.57 MB)、ResNet-50(75.76%、7.99 MB)、SqueezeNext(68.38%、1.07 MB)で最先端の結果を達成。
  • COCO RetinaNet with ResNet-50 backboneでは、活性化量子化とともにHAWQ-V2は34.4 mAP、17.90 MBを達成し、直接量子化やFQNを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。