Skip to main content
QUICK REVIEW

[논문 리뷰] Fighting Quantization Bias With Bias

Alexander M. Finkel’stein, Uri Almog|arXiv (Cornell University)|2019. 06. 07.
Advanced Neural Network Applications참고 문헌 29인용 수 20
한 줄 요약

이 논문은 MobileNet과 같은 경량 DNN에서 저정밀도 양자화 시 성능 저하의 주요 원인으로 평균 활성화 이탈(MAS)을 특정하며, 특히 소규모 레이어 아키텍처에서 균형 잡히지 않은 양자화 오차로 인해 악화됨을 밝힌다. 이에 따라 데이터와 계산 자원을 최소화하면서도 양자화-aware 학습에 근접한 성능을 달성하는 두 가지 효율적인 사후 훈련 방법—반복적 편향 보정(IBC)과 편향 미세조정(BFT)—을 제안한다. 이는 채널별 편향 항목을 조정하여 MAS를 보완함으로써 이루어지며, MobileNet-v1/v2에서 상태최저 수준의 1% 이내 성능 저하를 달성한다.

ABSTRACT

Low-precision representation of deep neural networks (DNNs) is critical for efficient deployment of deep learning application on embedded platforms, however, converting the network to low precision degrades its performance. Crucially, networks that are designed for embedded applications usually suffer from increased degradation since they have less redundancy. This is most evident for the ubiquitous MobileNet architecture which requires a costly quantization-aware training cycle to achieve acceptable performance when quantized to 8-bits. In this paper, we trace the source of the degradation in MobileNets to a shift in the mean activation value. This shift is caused by an inherent bias in the quantization process which builds up across layers, shifting all network statistics away from the learned distribution. We show that this phenomenon happens in other architectures as well. We propose a simple remedy - compensating for the quantization induced shift by adding a constant to the additive bias term of each channel. We develop two simple methods for estimating the correction constants - one using iterative evaluation of the quantized network and one where the constants are set using a short training phase. Both methods are fast and require only a small amount of unlabeled data, making them appealing for rapid deployment of neural networks. Using the above methods we are able to match the performance of training-based quantization of MobileNets at a fraction of the cost.

연구 동기 및 목표

  • 경량 DNN, 특히 MobileNet에서 저정밀도 양자화 시 성능 저하의 근본 원인을 규명하는 것.
  • 소규모 레이어 구성 요소(예: 디프스와이즈 컨볼루션 등)를 가진 아키텍처가 왜 다른 아키텍처보다 양자화 오차에 더 취약한지 조사하는 것.
  • 전체 재학습이나 원본 데이터에 접근할 필요 없이 MAS를 보정할 수 있는 사후 훈련 방법을 개발하는 것.
  • 다양한 아키텍처에서 양자화 유도 성능 저하를 줄이기 위해 편향 항목 보정의 효과를 평가하는 것.
  • 엣지 배포를 위한 양자화-aware 학습의 빠르고 자원 효율적인 대안을 제공하는 것.

제안 방법

  • 논문은 비균형적인 양자화 반올림 오차로 인해 발생하는 비균일한 양자화 오차로 인해 평균 활성화 이탈(MAS)이 발생함을 규명하며, 특히 파rameter 수가 적은 레이어(예: 디프스와이즈 컨볼루션)에서 두드러짐을 밝힌다.
  • 편향의 덧셈적 성질을 활용해 각 채널의 덧셈 편향 항목에 일정한 보정값을 추가함으로써 MAS를 보완한다. 이는 활성화 분포를 학습된 통계치로 다시 이동시키는 데 기여한다.
  • 두 가지 방법을 제안한다: 반복적 편향 보정(IBC), 즉 소량의 레이블이 없는 테스트 이미지에서 추론을 통해 보정 상수를 추정하는 방법과, 오직 편향 파rameter들만을 대상으로 짧은 기반 경량 최적화를 수행하는 편향 미세조정(BFT) 방법이다.
  • IBC는 정밀도가 높은 네트워크와 양자화된 네트워크 간의 활성화 평균 비교를 통해 보정 값을 계산하며, BFT는 1,000장의 레이블이 없는 이미지에서 표준 최적화기와 학습률 스케줄링을 사용한다.
  • 모든 방법은 배치 정규화를 통합한 표준 8비트 정수 양자화 방식을 사용하며, 하드웨어 호환성을 확보한다.
  • 이러한 접근은 이전의 최고 성능 연구에서 사용된 동일한 8비트 양자화 설정 하에 ImageNet으로 학습된 모델들—MobileNet-v1, MobileNet-v2, Inception-v1—을 대상으로 평가된다.

실험 결과

연구 질문

  • RQ1MobileNet과 같은 경량 DNN에서 저정밀도 양자화 시 심각한 성능 저하가 발생하는 원인은 무엇인가?
  • RQ2소규모 레이어 구성 요소(예: 디프스와이즈 컨볼루션 등)를 가진 아키텍처가 다른 아키텍처보다 왜 더 많은 양자화 오차에 취약한가?
  • RQ3비균형적인 양자화 반올림 오차로 인해 발생하는 평균 활성화 이탈(MAS)이 존재하는가? 그리고 이는 저정밀도 추론에서 주요 오차 원인인가?
  • RQ4단지 네트워크 레이어의 편향 항목만 수정함으로써 MAS를 효과적으로 보완할 수 있는가?
  • RQ5사후 훈련을 통한 편향 보정 방법이 전체 재학습 없이도 양자화-aware 학습과 유사한 성능을 달성할 수 있는가? 최소한의 데이터와 계산 자원으로도 가능한가?

주요 결과

  • 논문은 8비트 양자화된 MobileNet-v1 및 v2에서 성능 저하의 주요 원인으로 평균 활성화 이탈(MAS)을 특정하며, 이는 소규모 레이어 구성 요소에서 발생하는 비균일한 양자화 오차로 인해 기인함을 규명한다.
  • 반복적 편향 보정(IBC)은 MobileNet-v1에서 1.0%의 성능 저하로 줄였으며, 이는 전체 양자화-aware 학습의 성능을 정확히 재현한다.
  • 편향 미세조정(BFT)은 MobileNet-v1에서 1.0%의 성능 저하, MobileNet-v2에서 1.2%의 성능 저하를 기록하여, 전체 양자화-aware 학습의 최고 성능 결과와 유사한 성능을 달성한다.
  • BFT와 채널 등가화(ChannleEqualization)를 조합하면 MobileNet-v2의 정확도가 71.1% (v2-1.0) 및 74.3% (v2-1.4)로 향상되어, 양자화 모델 중 최고 성능을 달성한다.
  • IBC는 레이블이 없는 8장의 이미지만 필요로 하며 2~3분 내에 실행되며, BFT는 1,000장의 이미지를 사용하고 단일 GPU에서 약 20분이 소요된다. 양자화-aware 학습에 비해 훨씬 빠르고 자원 소모가 적다.
  • 이 방법들은 아키텍처 간에 뛰어난 견고성을 보이며, Inception-v1에서도 유사한 성능 향상을 보여, MAS가 MobileNet을 넘어서 일반적인 현상임을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.