[논문 리뷰] Additive Powers-of-Two Quantization: An Efficient Non-uniform Discretization for Neural Networks
이 논문은 APoT를 도입합니다. 비균일 양자화에서 양자화 레벨은 Powers-of-Two 항들의 합으로 구성되며, 재매개변수화된 클리핑 함수와 가중치 정규화와 짝을 이루어 가중치 및 활성화 양자화에서 하드웨어 효율성과 함께 경쟁력 있는 정확도를 달성합니다.
We propose Additive Powers-of-Two~(APoT) quantization, an efficient non-uniform quantization scheme for the bell-shaped and long-tailed distribution of weights and activations in neural networks. By constraining all quantization levels as the sum of Powers-of-Two terms, APoT quantization enjoys high computational efficiency and a good match with the distribution of weights. A simple reparameterization of the clipping function is applied to generate a better-defined gradient for learning the clipping threshold. Moreover, weight normalization is presented to refine the distribution of weights to make the training more stable and consistent. Experimental results show that our proposed method outperforms state-of-the-art methods, and is even competitive with the full-precision models, demonstrating the effectiveness of our proposed APoT quantization. For example, our 4-bit quantized ResNet-50 on ImageNet achieves 76.6% top-1 accuracy without bells and whistles; meanwhile, our model reduces 22% computational cost compared with the uniformly quantized counterpart. The code is available at https://github.com/yhhhli/APoT_Quantization.
연구 동기 및 목표
- 가우시 distributions(종 모양의 벨 모양, 긴 꼬리 모양)와 균일 양자화 간의 불일치를 해결한다.
- 레벨을 Powers-of-two 항들의 합으로 표현하여 하드웨어 친화적인 비균일 양자화를 개발한다.
- 학습 중 α의 클리핑 임계값 학습을 위한 더 정확한 그래디언트를 제공하는 재매개변수화된 클리핑 함수(RCF)를 도입한다.
- 양자화 전 가중치 정규화(평균 0, 분산 1)를 적용하여 분포와 학습의 안정성을 높인다.
- ImageNet 및 CIFAR-10에서 계산량을 줄이면서 최첨단 또는 경쟁적인 정확도를 입증한다.
제안 방법
- 각 양자화 레벨이 여러 개의 PoT(term)들의 합으로 구성된 APoT 양자화를 정의하여 비균일하지만 하드웨어 친화적인 레벨을 가능하게 한다.
- 기본 비트폭 k와 가산 항의 수 n( b = kn )을 사용해 Boulder의 2^b 레벨을 PoT 항의 합으로 생성한다.
- 학습 중 클리핑 임계값 α에 대한 보다 정확한 그래디언트를 제공하는 Reparameterized Clipping Function(RCF)을 제안한다.
- 분포와 학습의 안정을 위해 양자화 전 가중치를 평균 0, 분산 1로 조정하는 가중치 정규화를 적용한다.
- RCF를 활용하여 정보를 전달하는 그래디언트를 보존하면서 투영에 대한 STE를 사용해 클리핑 임계값 α를 SGD로 최적화한다.
- APoT로 가중치와 활성화를 양자화하여 시프트-덧셈 곱셈을 빠르게 수행하고 균일 양자화 대비 약 2x 속도 향상을 달성한다.
실험 결과
연구 질문
- RQ1APoT 양자화가 표준 CNN에서 균일/PoT 양자화의 정확도에 필적하거나 이를 능가할 수 있는가?
- RQ2RCF가 직통 통과 추정치(STE)보다 클리핑 임계값에 대해 더 유력한 그래디언트를 제공하는가?
- RQ3가중치 정규화가 APoT 양자화 네트워크의 학습 안정성과 최종 성능을 향상시키는가?
- RQ4APoT가 ImageNet 및 CIFAR-10에서 정확도를 유지하면서 계산 비용을 어느 정도까지 줄일 수 있는가?
주요 결과
- ImageNet의 4-bit ResNet-50은 Top-1 정확도 76.6%를 달성하며 계산 비용이 균일 양자화 대비 약 22% 감소했다.
- APoT는 ImageNet 및 CIFAR-10 전반에서 최첨단 양자화 방법과 비교하여 경쟁력 있거나 우수한 정확도를 달성한다.
- APoT는 PoT 구성 요소의 시프트-덧셈 연산으로 인해 균일 양자화 대비 대략 2배 빠른 곱셈을 제공한다.
- APoT, Reparameterized Clipping Function, 및 Weight Normalization의 조합은 안정적인 학습과 강력한 양자화 성능을 제공한다.
- ImageNet에서 5-bit APoT 양자화가 특정 구성에서 일부 전체 정밀도 baselines보다 Top-1 정확도에서 우수할 수 있다(빈약한 결과의 결과로 보고된 바 있음).
- 아블레이션 연구에서 가중치 정규화를 제거하거나 비-APoT 양자화기를 사용할 경우 정확도가 저하되며, 특히 낮은 비트폭에서 그렇다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.