Skip to main content
QUICK REVIEW

[논문 리뷰] EasyQuant: Post-training Quantization via Scale Optimization

Di Wu, Qi Tang|arXiv (Cornell University)|2020. 06. 30.
Advanced Neural Network Applications참고 문헌 31인용 수 39
한 줄 요약

EasyQuant (EQ)은 레이어별 가중치와 활성화의 스케일을 교대로 최적화하여 포스트 트레이닝 양자화를 수행하고, 7비트 양자화로 거의 INT8 정확도를 달성하며 ARM에서 TRT 대비 지연이 개선된 INT7 추론을 제공합니다.

ABSTRACT

The 8 bits quantization has been widely applied to accelerate network inference in various deep learning applications. There are two kinds of quantization methods, training-based quantization and post-training quantization. Training-based approach suffers from a cumbersome training process, while post-training quantization may lead to unacceptable accuracy drop. In this paper, we present an efficient and simple post-training method via scale optimization, named EasyQuant (EQ),that could obtain comparable accuracy with the training-based method.Specifically, we first alternately optimize scales of weights and activations for all layers target at convolutional outputs to further obtain the high quantization precision. Then, we lower down bit width to INT7 both for weights and activations, and adopt INT16 intermediate storage and integer Winograd convolution implementation to accelerate inference.Experimental results on various computer vision tasks show that EQ outperforms the TensorRT method and can achieve near INT8 accuracy in 7 bits width post-training.

연구 동기 및 목표

  • 제약된 환경에서 재학습보다 포스트 트레이닝 양자화가 바람직한 이유를 제시합니다.
  • FP32와 양자화된 컨볼루션 출력 간의 유사성을 극대화하기 위한 간단하고 효율적인 스케일 최적화 방법을 제안합니다.
  • 가중치 스케일과 활성화 스케일의 교대 최적화가 학습 기반 양자화에 비해 경쟁력 있는 정확도를 제공하는지 보여줍니다.
  • INT7 포스트 트레이닝 추론이 INT16 저장소와 정수 Winograd를 사용해 ARM 플랫폼에서 하드웨어 지연을 개선하는지 시연합니다.
  • 이미지 분류, 객체 검출, 얼굴 인식 과제 전반에 걸쳐 방법을 검증합니다.

제안 방법

  • 활성화에 대한 레이어별 스케일 S^a와 가중치에 대한 스케일 S^w를 사용하여 Q(X,S)=Clip(Round(X·S))로 모델 양자화를 형식화합니다.
  • 각 레이어에 대해 먼저 S^w를 최적화하고(S^a는 고정) 그다음 S^a를 최적화합니다(S^w가 고정된 상태에서 FP32 출력 O_l과 양자화 출력 Ō_l 간의 코사인 유사도를 캘리브레이션 세트에서 최대화).
  • 네트워크 전반에 걸쳐 순차적이고 탐욕적인 레이어별 최적화를 적용하고 수렴하거나 시간 제한에 도달할 때까지 반복합니다.
  • 초기화는 가중치와 활성화의 최대 값을 사용합니다. 각 레이어마다 [0.5·S_l, 2·S_l] 범위 내에서 100개의 후보 스케일에 대해 간단한 선형 탐색을 사용합니다.
  • 채널당 양자화의 경우 개별 스케일을 서로 다른 필터별로 병렬로 조정할 수 있습니다.
  • INT7 포스트 트레이닝 추론은 ARM에서 INT16 중간값과 Winograd 기반 합성곱을 사용해 속도를 개선하고 INT8 작업 흐름에 비해 저장 공간을 줄이도록 구현됩니다.

실험 결과

연구 질문

  • RQ1가중치와 활성화 스케일을 레이어별로 최적화하여 훈련 기반 양자화에 근접한 정확도에 포스트 트레이닝 양자화가 도달할 수 있는가?
  • RQ2레이어별 활성화 및 가중치 스케일의 교대 최적화가 FP32와 양자화된 컨볼루션 출력 간의 코사인 유사도를 충분히 향상시켜 다양한 과제에서 정확도를 유지할 수 있는가?
  • RQ3INT16 중간값 및 정수 Winograd를 사용한 ARM 장치에서 실용적인 지연 개선과 함께 INT7 포스트 트레이닝 추론이 가능한가?
  • RQ4EasyQuant가 TensorRT 및 QAT 베이스라인과 비교해 이미지 분류, 객체 검출, 얼굴 인식 벤치마크에서 어떻게 성능을 발휘하는가?
  • RQ5비전 과제에서 7비트 양자화의 한계는 무엇이며 EQ가 이를 어떻게 완화하는가?

주요 결과

  • EQ는 여러 모델과 과제에서 INT8 채널별 양자화에 비해 동등하거나 더 나은 정확도를 달성합니다.
  • 여러 아키텍처와 과제에서 7비트 양자화(INT7)로 거의 INT8 정확도를 달성하며, INT7 시나리오에서 TRT보다 더 강건합니다.
  • INT16 중간값과 정수 Winograd를 사용하는 INT7 추론은 ARM 플랫폼에서 INT8 기준보다 더 낮은 지연을 제공합니다.
  • ImageNet 분류, VOC2007 객체 검출, 일반 얼굴 인식 벤치마크에서 EQ는 INT8/INT7 설정에서 일관되게 TRT보다 우수한 성능을 보여줍니다.
  • MobileNetV1 및 ResNet50에서 INT8 양자화 시 QAT 대비 결과와 경쟁하거나 초과할 수 있는 사례가 있습니다.
  • INT7 배치는 더 빠른 SMLAL/SADALP 기반 연산과 감소된 메모리 트래픽의 이점을 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.