Skip to main content
QUICK REVIEW

[논문 리뷰] HAWQ-V2: Hessian Aware trace-Weighted Quantization of Neural Networks

Zhen Dong, Zhewei Yao|arXiv (Cornell University)|2019. 11. 10.
Advanced Neural Network Applications참고 문헌 25인용 수 53
한 줄 요약

HAWQ-V2는 해시안 기반 혼합 정밀도 양자화를 확장하여 층 민감도를 해시안 추적(고유값의 평균)으로 측정하고, Pareto 프런티어를 통해 자동으로 층의 비트 정밀도를 선택하며, 활성화 양자화를 가능하게 한다. 수동 설정 없이도 최첨단 성능을 달성한다.

ABSTRACT

Quantization is an effective method for reducing memory footprint and inference time of Neural Networks, e.g., for efficient inference in the cloud, especially at the edge. However, ultra low precision quantization could lead to significant degradation in model generalization. A promising method to address this is to perform mixed-precision quantization, where more sensitive layers are kept at higher precision. However, the search space for a mixed-precision quantization is exponential in the number of layers. Recent work has proposed HAWQ, a novel Hessian based framework, with the aim of reducing this exponential search space by using second-order information. While promising, this prior work has three major limitations: (i) HAWQV1 only uses the top Hessian eigenvalue as a measure of sensitivity and do not consider the rest of the Hessian spectrum; (ii) HAWQV1 approach only provides relative sensitivity of different layers and therefore requires a manual selection of the mixed-precision setting; and (iii) HAWQV1 does not consider mixed-precision activation quantization. Here, we present HAWQV2 which addresses these shortcomings. For (i), we perform a theoretical analysis showing that a better sensitivity metric is to compute the average of all of the Hessian eigenvalues. For (ii), we develop a Pareto frontier based method for selecting the exact bit precision of different layers without any manual selection. For (iii), we extend the Hessian analysis to mixed-precision activation quantization. We have found this to be very beneficial for object detection. We show that HAWQV2 achieves new state-of-the-art results for a wide range of tasks.

연구 동기 및 목표

  • 양자화를 통해 메모리와 계산량을 줄이되 일반화 성능을 보존하는 동기를 부여한다.
  • 상위 고유값뿐 아니라 전체 해시안 스펙트럼을 활용하여 혼합 정밀도 양자화를 개선한다.
  • 수동 조정 없이 각 층의 정확한 비트 정밀도를 자동으로 선택한다.
  • 활성화 양자화를 위해 해시안 기반 분석을 확장한다.
  • ImageNet 및 COCO 작업에서 최첨단 양자화 성능을 입증한다.

제안 방법

  • trace(해시안 고유값의 평균)를 층별 정밀도 가이드 라는 민감도 지표로 사용한다.
  • 해시안을 전체로 구성하지 않고도 희소 트레이스 추정을 위해 Hutchinson의 무작위 알고리즘을 적용한다.
  • 축소된 탐색 공간에서 Pareto-Frontier 기반의 방법을 도입하여 각 층의 정확한 비트 정밀도를 자동으로 선택한다.
  • 활성화에 대한 해시안을 분석하고 매트릭스 프리 추정 트레이스를 사용하는 방법으로 혼합 정밀도 활성화 양자화 프레임워크를 확장한다.
  • 네트워크(Inception-V3, ResNet-50, SqueezeNext)를 양자화하고 ImageNet에서 평가하며, COCO에서 ResNet-50 백본으로 RetinaNet을 테스트한다.

실험 결과

연구 질문

  • RQ1해시안 트레이스가 양자화 의사결정에서 층 민감도를 상위 해시안 고유값보다 더 잘 포착할 수 있는가?
  • RQ2수동 조정 없이 Pareto-Frontier 기반의 자동 층별 비트 정밀도 선택이 수동으로 선택된 설정과 같거나 더 나은 성능을 보이는가?
  • RQ3가중치와 활성화에 대해 해시안 트레이스를 효율적으로 계산하는 것이 실제적인 혼합 정밀도 양자화를 가능하게 하는가?
  • RQ4혼합 정밀도 활성화 양자화가 특히 객체 탐지 작업에서 성능을 향상시키는가?
  • RQ5HAWQ-V2가 표준 벤치마크(ImageNet, COCO)에서 이전 양자화 방법들과 비교해 어떤 성능을 보이는가?

주요 결과

  • Average Hessian trace provides a better sensitivity measure than the top eigenvalue for layer quantization decisions.
  • Hessians traces can be estimated efficiently with Hutchinson’s algorithm (e.g., 54 layers of ResNet50 in ~30 minutes on 4 GPUs).
  • A Pareto-frontier approach enables automatic selection of exact per-layer bit-precision without manual tuning (example reduces search space from exponential).
  • HAWQ-V2 achieves state-of-the-art results on ImageNet for Inception-V3 (75.68% Top-1, 7.57 MB), ResNet-50 (75.76%, 7.99 MB), and SqueezeNext (68.38%, 1.07 MB).
  • On COCO RetinaNet with ResNet-50 backbone, HAWQ-V2 reaches 34.4 mAP with activation quantization and 17.90 MB, outperforming direct quantization and FQN by margins.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.