[논문 리뷰] LQ-Nets: Learned Quantization for Highly Accurate and Compact Deep Neural Networks
본 논문은 네트워크와 함께 학습되는 학습 가능한 양자화기를 제안하여 가중치와 활성화를 양자화하고, 비트 단위 친화적이며 임의의 비트 양자화를 가능하게 하여 CIFAR-10 및 ImageNet에서 저비트 DNN에 대한 최첨단 정확도를 달성합니다.
Although weight and activation quantization is an effective approach for Deep Neural Network (DNN) compression and has a lot of potentials to increase inference speed leveraging bit-operations, there is still a noticeable gap in terms of prediction accuracy between the quantized model and the full-precision model. To address this gap, we propose to jointly train a quantized, bit-operation-compatible DNN and its associated quantizers, as opposed to using fixed, handcrafted quantization schemes such as uniform or logarithmic quantization. Our method for learning the quantizers applies to both network weights and activations with arbitrary-bit precision, and our quantizers are easy to train. The comprehensive experiments on CIFAR-10 and ImageNet datasets show that our method works consistently well for various network structures such as AlexNet, VGG-Net, GoogLeNet, ResNet, and DenseNet, surpassing previous quantization methods in terms of accuracy by an appreciable margin. Code available at https://github.com/Microsoft/LQ-Nets
연구 동기 및 목표
- 정확도 손실을 최소화하면서 가중치와 활성화를 양자화하여 DNN 모델 크기와 계산량을 줄이는 것을 동기로 삼는다.
- 빠른 추론을 유지하기 위해 비트 단위 연산과 호환되는 학습 가능한 양자화를 제안한다.
- 임의의 비트 폭으로 계층별/채널별 양자화를 가능하게 하고, 양자화를 네트워크 매개변수와 함께 공동으로 학습한다.
- 다수의 아키텍처와 데이터셋에서 기존 양자화 방법들보다 향상된 정확도를 입증한다.
제안 방법
- 양자화 구간에 속하는 x에 대해 Qours(x, v) = v^T e_l 를 갖는 학습 가능한 양자화기 를 도입하고, e_l은 K-비트 수준을 인코딩한다.
- 양자화 수준은 학습된 기저 v ∈ R^K와 K-비트 인코딩 e_l ∈ {−1,1}^K에 의해 생성되어 비트 단위 호환 양자화를 가능하게 한다.
- 레이어별 활성화 양자화기와 채널별 가중치 양자화를 사용하고, QEM (Quantization Error Minimization)으로 v와 인코딩 B를 순전파에서 교대로 최적화한다.
- 순전파 최적화는 ||Bx − vB||^2 를 최소화하며, B ∈ {−1,1}^{K×N}이고 v ∈ R^K일 때; B가 고정되었을 때는 폐쇄형 업데이트 v* = (BB^T)^{-1}Bx 를 사용한다.
- 양자화를 Through STE로 역전파하여 전달하며 Straight-Through Estimator (STE)를 사용한다; 훈련 중 양자화기 매개변수를 안정시키기 위해 이동 평균을 사용한다.
- 일반적인 방식으로 네트워크를 학습시키고, 학습 후 양자화기는 버려지며 추론 시에는 코드/기저만 보유한다.
실험 결과
연구 질문
- RQ1학습 가능한 비트 단위 호환 양자화기가 수작업으로 만든 양자화기보다 저비트 양자화 네트워크의 정확도를 향상시킬 수 있는가?
- RQ2네트워크 가중치/활성화와 함께 양자화를 공동 학습하는 것이 다양한 아키텍처 및 데이터셋에서 성능에 어떤 영향을 미치는가?
- RQ3QEM(Quantization Error Minimization) 접근법이 표준 역전파보다 양자화를 최적화하는 데 얼마나 효과적인가?
- RQ4임의의 비트 폭으로 계층별 활성화 양자화와 채널별 가중치 양자화를 적용하였을 때 추론 속도는 유지되면서 모델 크기는 감소하는가?
주요 결과
- 학습 가능한 양자화기는 아키텍처(AlexNet, VGG, GoogLeNet, ResNet, DenseNet) 전반에서 고정 양자화기보다 일관되게 더 나은 성능을 보인다.
- QEM 기반 학습은 가중치만 양자화와 가중치-활성화 양자화 모두에 대해 표준 역전파보다 더 나은 결과를 낳는다.
- ImageNet ResNet-18에서 4/32 비트는 Top-1 70.0% 및 Top-5 89.1%를 달성하여 전체 정밀도(69.6%/89.2%)에 매우 근접하며; 2/32 및 3/32도 고정 양자화기 대비 상당한 이점을 보인다.
- CIFAR-10에서 3/32 양자화는 ResNet-20 및 VGG-Small에 대해 거의 풀정밀도 결과와 일치하며; 1비트 가중치에 2비트 활성화로도 여전히 경쟁력 있는 정확도를 유지한다.
- DoReFa-Net 및 HWGQ와 비교하여 LQ-Nets의 1/2, 2/2, 3/3, 4/4 구성은 ResNet-34, ResNet-50 및 DenseNet-121에서 ImageNet에서 Top-1/Top-5를 더 높은 성능으로 달성한다.
- 비트 폭이 커질수록 학습 시간은 다소 증가하며, 2/32, 3/32, 1/2는 전체 정밀도 대비 비례적으로 학습 시간이 증가하는 양상을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.