[논문 리뷰] Post-training 4-bit quantization of convolution networks for rapid-deployment
재학습 없이 CNN에 대한 Analytical Clipping for Integer Quantization (ACIQ), 채널별 비트 배분 및 정확도 보정을 활용한 실용적인 4비트 사후 학습 양자화 프레임워크를 제시한다.
Convolutional neural networks require significant memory bandwidth and storage for intermediate computations, apart from substantial computing resources. Neural network quantization has significant benefits in reducing the amount of intermediate results, but it often requires the full datasets and time-consuming fine tuning to recover the accuracy lost after quantization. This paper introduces the first practical 4-bit post training quantization approach: it does not involve training the quantized model (fine-tuning), nor it requires the availability of the full dataset. We target the quantization of both activations and weights and suggest three complementary methods for minimizing quantization error at the tensor level, two of whom obtain a closed-form analytical solution. Combining these methods, our approach achieves accuracy that is just a few percents less the state-of-the-art baseline across a wide range of convolutional models. The source code to replicate all experiments is available on GitHub: \url{https://github.com/submission2019/cnn-quantization}.
연구 동기 및 목표
- 전체 학습 데이터에 접근하지 못하는 상황에서 저비트 양자화된 CNN의 신속한 배치를 촉진한다.
- analytically clipping 및 채널 인식 비트 너비 선택을 통해 텐서 수준의 양자화 오차를 최소화한다.
- 재학습 없이도 활성화 및 가중치의 4비트 양자화를 가능하게 한다.
- 가중치의 양자화 편향을 완화하기 위한 바이어스 보정을 제공한다.
제안 방법
- ACIQ를 도입: 활성화에 대한 평균 제곱 오차를 최소화하도록 임계값을 분석적으로 결정한다.
- 固定된 평균 비트 예산 하에서 채널별로 최적의 비트 너비를 할당하도록 비트 배분을 제안한다.
- 가중치의 양자화 편향을 보정하기 위해 바이어스 보정을 적용한다.
- 제안된 방법으로 가중치와 활성화를 함께 양자화하여 공동 배포 파이프라인에서 사용한다.
- 잡음 감소를 위해 ReLU를 융합한 채널별 양자화 방식을 사용한다.
- 이들 방법을 결합하면 미세 튜닝 없이도 대부분의 감소를 회복한다를 보여준다.
실험 결과
연구 질문
- RQ14비트 사후 학습 양자화가 전체 학습 데이터 세트를 사용하지 않고도 CNN의 부동소수점 정확도에 근접하게 도달할 수 있는가?
- RQ2Analytical clipping, 채널별 비트 배분, 바이어스 보정이 단독으로 및 공동으로 4비트 양자화의 정확도에 어느 정도 영향을 미치는가?
- RQ3일반적인 CNN 아키텍처에서 가중치와 활성화를 4비트로 양자화하는 것이 허용 가능한 손실로 가능한가?
- RQ4이 사후 학습 기법들을 적용했을 때 배포 속도와 메모리 측면에서 실질적으로 얻는 이점은 무엇인가?
주요 결과
- ACIQ 및 가중치 바이어스 보정은 4비트 기초선의 평균 약 3.2% 및 6.0%의 개선을 각각 이끈다.
- 채널별 비트 배분은 활성화 양자화를 약 2.85% 개선하고(가중치 양자화는 약 6.3% 개선).
- 세 가지 방법을 가중치와 활성화에 모두 결합하면 재학습 없이 손실된 정확도의 대부분을 회복한다.
- 여섯 개의 ImageNet 모델에 걸쳐 4비트 사후 학습 양자화는 최소한의 재학습으로도 최신 기초선에 가까운 정확도를 달성하여 신속한 배포를 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.