QUICK REVIEW

[논문 리뷰] Trained Quantization Thresholds for Accurate and Efficient Fixed-Point Inference of Deep Neural Networks

Sambhav R. Jain, Albert Gural|arXiv (Cornell University)|2019. 03. 19.

Advanced Neural Network Applications참고 문헌 32인용 수 55

한 줄 요약

본 논문은 Trained Quantization Thresholds (TQT)를 도입하여 역전파를 이용한 재학습 중에 quantization 임계값을 학습하고, power-of-2, per-tensor, 대칭 고정소수점 제약 하에서 8비트에서 거의 부동소수점 정확도, 4비트 네트워크에서 FP 정확도에 근접한 성능을 달성하는 방법을 제시한다. 또한 자동 양자화와 재학습을 위한 TensorFlow 기반 프레임워크 Graffitist를 제공한다.

ABSTRACT

We propose a method of training quantization thresholds (TQT) for uniform symmetric quantizers using standard backpropagation and gradient descent. Contrary to prior work, we show that a careful analysis of the straight-through estimator for threshold gradients allows for a natural range-precision trade-off leading to better optima. Our quantizers are constrained to use power-of-2 scale-factors and per-tensor scaling of weights and activations to make it amenable for hardware implementations. We present analytical support for the general robustness of our methods and empirically validate them on various CNNs for ImageNet classification. We are able to achieve near-floating-point accuracy on traditionally difficult networks such as MobileNets with less than 5 epochs of quantized (8-bit) retraining. Finally, we present Graffitist, a framework that enables automatic quantization of TensorFlow graphs for TQT (available at https://github.com/Xilinx/graffitist ).

연구 동기 및 목표

가중치와 함께 양자화 임계값을 공동으로 학습하여 강인한 저정밀 DNN 추론을 촉진한다.
로그 도메인 매개변수화에 따라 클리핑 임계값을 학습하는 그래디언트 기반 방법을 개발한다.
대칭적이고 per-tensor, power-of-2 스케일 팩터를 갖는 하드웨어 친화적인 양자화를 보장한다.
TensorFlow에서 자동 양자화와 재학습을 위한 엔드-투-엔드 프레임워크(Graffitist)를 제공한다.
제한된 재학습 에포크로도 도전적인 모델(예: MobileNets)에서 거의 부동소수점 정확도를 입증한다.

제안 방법

s = 2^(-f)이고 f가 정수일 때, 스케일 s와 임계값 t를 갖는 대칭 선형 양자화를 정의한다.
역전파를 통해 범위와 정밀도를 균형 있게 맞추기 위해 로그 도메인에서 임계값을 학습한다.
입력 x와 스케일 s에 대해 STE 기반 그래디언트를 도출하고, 양자화를 통해 그래디언트를 전파하며 log2(t)에 대한 그래디언트를 포함한다.
가중치와 활성화 값을 per-tensor로 8-bit 및 4-bit 방식으로 양자화하되 스케일은 power-of-2 제약을 따른다.
메모리 오버헤드를 줄이기 위해 융합 커널을 포함한 TensorFlow에서 그래프 변환, 양자화 및 재학습을 자동화하는 Graffitist를 도입한다.

실험 결과

연구 질문

RQ1양자화 임계값을 모델 가중치와 공동으로 학습시켜 엔드-투-엔드 손실을 최적화할 수 있는가?
RQ2로그 도메인에서 임계값 매개변수를 학습하는 것이 양자화된 재학습의 안정성과 수렴성을 개선하는가?
RQ3power-of-2, per-tensor, 대칭 양자화 제약이 일반적인 CNN들에서 정확도에 어떤 영향을 미치는가?
RQ4다양한 아키텍처 전반에서 자동 양자화와 재학습에 효과적인 통합 프레임워크(Graffitist)인가?
RQ5가중치만 재학습하는 경우에 비해 TQT로 어려운 네트워크(예: MobileNets)에서 달성 가능한 정확도 향상은 무엇인가?

주요 결과

재학습 후 여러 CNN에서 8-bit 양자화에 대해 거의 부동소수점 정확도를 가능하게 한다.
Per-tensor, 대칭, power-of-2 스케일링 하에서 MobileNets와 같은 도전적 네트워크에서도 FP32 정확도에 일치할 수 있다.
INT4의 경우 가중치+임계값 재학습이 정확도 회복에 필요하며, 일부 네트워크는 제약된 양자화에서 FP32 성능에 근접한다.
도전적인 모델에서 재학습 임계값은 가중치 재학습보다 상위 1위 정확도에서 대략 최대 4% 포인트 정도의 절대 이득을 자주 제공합니다.
정적 양자화는 전역 손실 최적화와의 불일치로 인해 일반적으로 재학습 기반 접근보다 성능이 떨어진다.
로그 도메인에서 학습된 임계값은 직접 스케일 팩터를 학습하는 것과 비교해 안정성과 수렴성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.