Skip to main content
QUICK REVIEW

[논문 리뷰] F8Net: Fixed-Point 8-bit Only Multiplication for Network Quantization

Qing Jin, Jian Ren|arXiv (Cornell University)|2022. 02. 10.
Advanced Neural Network Applications인용 수 21
한 줄 요약

F8Net은 8-bit 고정소수점 곱셈만을 사용하여 신경망 양자화를 수행하고, 레이어별 고정소수점 포맷을 자동으로 선택하며 고정소수점 양자화를 PACT와 통합하여 ImageNet에서 INT32/float-기준 모델에 비해 경쟁력 있거나 우수한 정확도를 달성합니다.

ABSTRACT

Neural network quantization is a promising compression technique to reduce memory footprint and save energy consumption, potentially leading to real-time inference. However, there is a performance gap between quantized and full-precision models. To reduce it, existing quantization approaches require high-precision INT32 or full-precision multiplication during inference for scaling or dequantization. This introduces a noticeable cost in terms of memory, speed, and required energy. To tackle these issues, we present F8Net, a novel quantization framework consisting of only fixed-point 8-bit multiplication. To derive our method, we first discuss the advantages of fixed-point multiplication with different formats of fixed-point numbers and study the statistical behavior of the associated fixed-point numbers. Second, based on the statistical and algorithmic analysis, we apply different fixed-point formats for weights and activations of different layers. We introduce a novel algorithm to automatically determine the right format for each layer during training. Third, we analyze a previous quantization algorithm -- parameterized clipping activation (PACT) -- and reformulate it using fixed-point arithmetic. Finally, we unify the recently proposed method for quantization fine-tuning and our fixed-point approach to show the potential of our method. We verify F8Net on ImageNet for MobileNet V1/V2 and ResNet18/50. Our approach achieves comparable and better performance, when compared not only to existing quantization techniques with INT32 multiplication or floating-point arithmetic, but also to the full-precision counterparts, achieving state-of-the-art performance.

연구 동기 및 목표

  • 정량화 모델에 대해 INT32/float의 유효한 대안으로 8-bit 고정소수점 곱셈을 고무한다.
  • 고정소수점 표현을 분석하고, 레이어별 분수 길이(per-layer fractional lengths)가 양자화 오차에 어떤 영향을 미치는지 식별한다.
  • 효율적인 추론을 위해 고정소수점 양자화와 PACT 및 BN 통계를 통합하는 학습 기법을 개발한다.
  • 특히 잔차 블록에서, 레이어 간 분수 길이와 클리핑 레벨을 결정하고 공유하는 방법을 제시한다.
  • MobileNet과 ResNet 아키텍처 전반에서 ImageNet에서 F8Net을 실험적으로 검증하고, 기존 양자화 방법과 비교한다.

제안 방법

  • 8-bit 고정소수점 표현에 대한 고정소수점 포맷을 분석하고 양자화 오차를 통계적으로 특성화한다.
  • 레이어 통계(가중치/활성화의 표준편차)로부터 최적의 fractional length를 결정하기 위한 준경험적 수식을 도출한다.
  • 매개변수화된 클리핑 활성화(PACT)를 고정소수점 양자화와 통합하여 고정소수점 산술 내에서 학습 가능한 클리핑을 가능하게 한다.
  • 학습 중에 결정된 레이어별 fractional lengths로 가중치/활성화를 양자화하고, Conv+BN 융합을 위해 이중 순전파를 통해 BN 실행 통계를 적응시킨다.
  • 레이어 간 스케일링 요인을 관련화하고 흡수하여 양자화를 위한 유효 가중치를 계산하며, 잔차 블록에서 마스터/형제 클리핑 레벨 공유를 포함한다.
  • 고정소수점 만 곱셈으로 성능을 검증하기 위해 최근의 양자화-미세조정 접근법을 통합한다.

실험 결과

연구 질문

  • RQ18-bit 고정소수점 연산이 표준 CNN에서 INT32 기반 양자화 및 부동소수점 기준과 비교해 동등하거나 더 나은 정확도를 달성할 수 있는가?
  • RQ2다양한 계층과 분포에 걸쳐 양자화 오차를 최소화하기 위해 분수 길이(레이어별 고정소수점 포맷)를 어떻게 선택해야 하는가?
  • RQ3PACT 활성화 클리핑을 고정소수점 산술에 효과적으로 재정의하여 학습 안정성과 정확도를 개선할 수 있는가?
  • RQ48-bit 고정소수점 곱셈을 사용할 때 잔차 네트워크에서 정확도를 가장 잘 보존하는 전략(예: BN 융합, 분수 길이 공유)은 무엇인가?
  • RQ5레이어별 자동 결정 포맷이 MobileNet 및 ResNet 계열에서 ImageNet에서 경쟁력 있는 결과를 가능하게 하는가?

주요 결과

  • F8Net은 MobileNet V1/V2 및 ResNet18/50에 대해 ImageNet에서 8-bit 고정소수점 곱셈 양자화의 최첨단 성능을 시연한다. (논문에 보고된 바와 같이)
  • 레이어별 분수 길이가 레이어 통계로부터 결정되는 8-bit 고정소수점 양자화는 일부 경우에서 완전 정밀도 기준 대비 동등하거나 더 나은 성능을 달성할 수 있다.
  • 고정소수점 양자화를 PACT 유사 클리핑과 결합하는 통합 학습 방식은 효과적인 학습 역학과 높은 정확도를 제공한다.
  • 분수 길이는 레이어 간에 다양하게 변하며, 잔차 블록 내에서도 변동이 있으며, 형제 간 클리핑 레벨 공유는 일관성을 유지하면서 성능 보존에 도움을 준다.
  • 실험 결과는 F8Net이 INT32 곱셈이나 다이애딕 스케일링에 의존하는 방법보다 우수 또는 동등한 성능을 보여주며, 고정 소수점 곱셈이 강력한 양자화 모델의 성능에 필수적이지 않음을 시사한다.
  • 작게 더 잘 훈련된 완전 정밀도 모델에 대한 소규모 미세조정은 고정소수점 접근방식의 견고함과 실용성을 더 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.