QUICK REVIEW

[논문 리뷰] Training with Quantization Noise for Extreme Model Compression

Angela Fan, Pierre Stock|arXiv (Cornell University)|2020. 04. 15.

Advanced Neural Network Applications참고 문헌 72인용 수 114

한 줄 요약

본 논문은 Quant-Noise를 도입하여 학습 중 무작위 가중치 부분 집합만 양자화하는 정규화 기법을 제시합니다. 이를 통해 극단적 양자화(int4/int8 및 곱 양자화)에 강인한 모델을 구축하고, NLP 및 이미지 작업을 포함한 강한 압축 하에서도 최첨단 정확도를 달성합니다.

ABSTRACT

We tackle the problem of producing compact models, maximizing their accuracy for a given model size. A standard solution is to train networks with Quantization Aware Training, where the weights are quantized during training and the gradients approximated with the Straight-Through Estimator. In this paper, we extend this approach to work beyond int8 fixed-point quantization with extreme compression methods where the approximations introduced by STE are severe, such as Product Quantization. Our proposal is to only quantize a different random subset of weights during each forward, allowing for unbiased gradients to flow through the other weights. Controlling the amount of noise and its form allows for extreme compression rates while maintaining the performance of the original model. As a result we establish new state-of-the-art compromises between accuracy and model size both in natural language processing and image classification. For example, applying our method to state-of-the-art Transformer and ConvNet architectures, we can achieve 82.5% accuracy on MNLI by compressing RoBERTa to 14MB and 80.0 top-1 accuracy on ImageNet by compressing an EfficientNet-B3 to 3.3MB.

연구 동기 및 목표

극단적 모델 압축을 큰 정확도 손실 없이 동기 부여한다.
다양한 양자화 스킴에 견고한 네트워크를 만들기 위한 학습 시간 메커니즘을 개발한다.
스칼라 양자화, 곱 양자화(PQ/iPQ), 고정 소수점 산술의 조합을 가능하게 한다.
전체 재학습 없이 양자화된 모델을 개선하기 위한 후처리 단계로 Quant-Noise를 탐구한다.

제안 방법

Quant-Noise는 매 순전파마다 무작위 가중치 블록의 부분집합을 선택하고 대상 양자화를 모방하는 왜곡을 적용한다.
왜곡 함수에는 고정 소수점 스칼라 양자화와 곱 양자화(PQ/iPQ에 대한 프록시 노이즈 포함)가 있다.
역전파는 왜곡된 가중치에 대해 직통 추정(STE)을 사용하고, 노이즈가 없는 블록은 편향되지 않은 그래디언트를 받는다.
Quant-Noise는 가지치기나 레이어 드롭과 결합하여 학습 중 가지치기와 구조적 희소성을 시뮬레이션할 수 있다.
PQ를 사용할 때 노이즈는 선택된 서브벡터를 0으로 만드는 프록시를 통해 구현되어 유용한 서브벡터 상관관계를 촉진한다.

실험 결과

연구 질문

RQ1학습 시 무작위 양자화 노이즈로 극단적 양자화(int4/int8, PQ/iPQ)에 견고한 모델을 큰 정확도 손실 없이 얻을 수 있는가?
RQ2Quant-Noise가 극단적 압축 환경에서 표준 QAT보다 정확도를 향상시키는가?
RQ3이미 학습된 모델에서 Quant-Noise를 통해 효과적인 포스트 학습 양자화 개선이 가능한가?
RQ4NLP 및 비전 작업에서 PQ/iPQ와 고정 소수점 양자화 및 가지치기의 최적 조합은 무엇인가?

주요 결과

Quant-Noise는 NLP(RoBERTa 기반) 및 비전(EfficientNet-B3) 작업에서 양자화 스키마(int4, int8, PQ/iPQ)에 걸쳐 성능을 향상시킨다.
NLP(MNLI와 RoBERTa)에서 RoBERTa를 14 MB로 압축하면 Quant-Noise 없이 82.5%의 정확도이고, 학습 중 Quant-Noise를 사용하면 83.6%의 정확도가 달성된다; Quant-Noise를 사용한 포스트-학습 튜닝은 83.6%에 도달한다.
ImageNet에서 EfficientNet-B3로 3.3 MB로 압축 시 Quant-Noise 하에서 상위 1% 정확도 80.0%를 달성하며, 압축 후 비양자화 기준선은 78.5%이다.
iPQ + Quant-Noise는 ImageNet에서 3.3 MB로 상위 1%가 80.0%이며, iPQ와 int8 및 Quant-Noise의 조합에서 79.8%를 보인다; PQ 기반 방법은 최소한의 정확도 손실로 강력한 압축을 달성한다.
Quant-Noise는 NLP에서 가지치기 및 공유와 함께 최대 ×94의 극단적 압축 비율을 가능하게 하여 비압축 모델과 비교해도 당겨진 당김(언어 모델의 혼합 가능성/정확도)을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.