QUICK REVIEW

[논문 리뷰] F8Net: Fixed-Point 8-bit Only Multiplication for Network Quantization

Qing Jin, Jian Ren|arXiv (Cornell University)|2022. 02. 10.

Advanced Neural Network Applications인용 수 21

한 줄 요약

F8Net은 8-bit 고정소수점 곱셈만을 사용하여 신경망 양자화를 수행하고, 레이어별 고정소수점 포맷을 자동으로 선택하며 고정소수점 양자화를 PACT와 통합하여 ImageNet에서 INT32/float-기준 모델에 비해 경쟁력 있거나 우수한 정확도를 달성합니다.

ABSTRACT

Neural network quantization is a promising compression technique to reduce memory footprint and save energy consumption, potentially leading to real-time inference. However, there is a performance gap between quantized and full-precision models. To reduce it, existing quantization approaches require high-precision INT32 or full-precision multiplication during inference for scaling or dequantization. This introduces a noticeable cost in terms of memory, speed, and required energy. To tackle these issues, we present F8Net, a novel quantization framework consisting of only fixed-point 8-bit multiplication. To derive our method, we first discuss the advantages of fixed-point multiplication with different formats of fixed-point numbers and study the statistical behavior of the associated fixed-point numbers. Second, based on the statistical and algorithmic analysis, we apply different fixed-point formats for weights and activations of different layers. We introduce a novel algorithm to automatically determine the right format for each layer during training. Third, we analyze a previous quantization algorithm -- parameterized clipping activation (PACT) -- and reformulate it using fixed-point arithmetic. Finally, we unify the recently proposed method for quantization fine-tuning and our fixed-point approach to show the potential of our method. We verify F8Net on ImageNet for MobileNet V1/V2 and ResNet18/50. Our approach achieves comparable and better performance, when compared not only to existing quantization techniques with INT32 multiplication or floating-point arithmetic, but also to the full-precision counterparts, achieving state-of-the-art performance.

연구 동기 및 목표

정량화 모델에 대해 INT32/float의 유효한 대안으로 8-bit 고정소수점 곱셈을 고무한다.
고정소수점 표현을 분석하고, 레이어별 분수 길이(per-layer fractional lengths)가 양자화 오차에 어떤 영향을 미치는지 식별한다.
효율적인 추론을 위해 고정소수점 양자화와 PACT 및 BN 통계를 통합하는 학습 기법을 개발한다.
특히 잔차 블록에서, 레이어 간 분수 길이와 클리핑 레벨을 결정하고 공유하는 방법을 제시한다.
MobileNet과 ResNet 아키텍처 전반에서 ImageNet에서 F8Net을 실험적으로 검증하고, 기존 양자화 방법과 비교한다.

제안 방법

8-bit 고정소수점 표현에 대한 고정소수점 포맷을 분석하고 양자화 오차를 통계적으로 특성화한다.
레이어 통계(가중치/활성화의 표준편차)로부터 최적의 fractional length를 결정하기 위한 준경험적 수식을 도출한다.
매개변수화된 클리핑 활성화(PACT)를 고정소수점 양자화와 통합하여 고정소수점 산술 내에서 학습 가능한 클리핑을 가능하게 한다.
학습 중에 결정된 레이어별 fractional lengths로 가중치/활성화를 양자화하고, Conv+BN 융합을 위해 이중 순전파를 통해 BN 실행 통계를 적응시킨다.
레이어 간 스케일링 요인을 관련화하고 흡수하여 양자화를 위한 유효 가중치를 계산하며, 잔차 블록에서 마스터/형제 클리핑 레벨 공유를 포함한다.
고정소수점 만 곱셈으로 성능을 검증하기 위해 최근의 양자화-미세조정 접근법을 통합한다.

실험 결과

연구 질문

RQ18-bit 고정소수점 연산이 표준 CNN에서 INT32 기반 양자화 및 부동소수점 기준과 비교해 동등하거나 더 나은 정확도를 달성할 수 있는가?
RQ2다양한 계층과 분포에 걸쳐 양자화 오차를 최소화하기 위해 분수 길이(레이어별 고정소수점 포맷)를 어떻게 선택해야 하는가?
RQ3PACT 활성화 클리핑을 고정소수점 산술에 효과적으로 재정의하여 학습 안정성과 정확도를 개선할 수 있는가?
RQ48-bit 고정소수점 곱셈을 사용할 때 잔차 네트워크에서 정확도를 가장 잘 보존하는 전략(예: BN 융합, 분수 길이 공유)은 무엇인가?
RQ5레이어별 자동 결정 포맷이 MobileNet 및 ResNet 계열에서 ImageNet에서 경쟁력 있는 결과를 가능하게 하는가?

주요 결과

F8Net은 MobileNet V1/V2 및 ResNet18/50에 대해 ImageNet에서 8-bit 고정소수점 곱셈 양자화의 최첨단 성능을 시연한다. (논문에 보고된 바와 같이)
레이어별 분수 길이가 레이어 통계로부터 결정되는 8-bit 고정소수점 양자화는 일부 경우에서 완전 정밀도 기준 대비 동등하거나 더 나은 성능을 달성할 수 있다.
고정소수점 양자화를 PACT 유사 클리핑과 결합하는 통합 학습 방식은 효과적인 학습 역학과 높은 정확도를 제공한다.
분수 길이는 레이어 간에 다양하게 변하며, 잔차 블록 내에서도 변동이 있으며, 형제 간 클리핑 레벨 공유는 일관성을 유지하면서 성능 보존에 도움을 준다.
실험 결과는 F8Net이 INT32 곱셈이나 다이애딕 스케일링에 의존하는 방법보다 우수 또는 동등한 성능을 보여주며, 고정 소수점 곱셈이 강력한 양자화 모델의 성능에 필수적이지 않음을 시사한다.
작게 더 잘 훈련된 완전 정밀도 모델에 대한 소규모 미세조정은 고정소수점 접근방식의 견고함과 실용성을 더 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.