[논문 리뷰] Incremental Network Quantization: Towards Lossless CNNs with Low-Precision Weights
이 논문은 Incremental Network Quantization(INQ)를 도입하여 어떤 사전 학습된 고정밀 CNN도 가중치가 2의 거듭제곱 또는 0인 저정밀 모델로 변환하는 방법을 제시합니다. 가중치 분할, 그룹별 양자화, 손실 없이 반복적으로 재학습하는 과정을 통해 ImageNet의 다양한 아키텍처에서 5, 4, 심지어 3 비트 양자화에서도 정확도를 달성하거나 개선합니다.
This paper presents incremental network quantization (INQ), a novel method, targeting to efficiently convert any pre-trained full-precision convolutional neural network (CNN) model into a low-precision version whose weights are constrained to be either powers of two or zero. Unlike existing methods which are struggled in noticeable accuracy loss, our INQ has the potential to resolve this issue, as benefiting from two innovations. On one hand, we introduce three interdependent operations, namely weight partition, group-wise quantization and re-training. A well-proven measure is employed to divide the weights in each layer of a pre-trained CNN model into two disjoint groups. The weights in the first group are responsible to form a low-precision base, thus they are quantized by a variable-length encoding method. The weights in the other group are responsible to compensate for the accuracy loss from the quantization, thus they are the ones to be re-trained. On the other hand, these three operations are repeated on the latest re-trained group in an iterative manner until all the weights are converted into low-precision ones, acting as an incremental network quantization and accuracy enhancement procedure. Extensive experiments on the ImageNet classification task using almost all known deep CNN architectures including AlexNet, VGG-16, GoogleNet and ResNets well testify the efficacy of the proposed method. Specifically, at 5-bit quantization, our models have improved accuracy than the 32-bit floating-point references. Taking ResNet-18 as an example, we further show that our quantized models with 4-bit, 3-bit and 2-bit ternary weights have improved or very similar accuracy against its 32-bit floating-point baseline. Besides, impressive results with the combination of network pruning and INQ are also reported. The code is available at https://github.com/Zhouaojun/Incremental-Network-Quantization.
연구 동기 및 목표
- 저정밀 CNN 양자화에서 정확도 손실과 긴 수렴 문제를 동기부여하고 해결합니다.
- 전체 정밀도 CNN을 저정밀 가중치로 변환하기 위한 손실 없는 증분 양자화 프레임워크를 제시합니다.
- ImageNet에서 주요 아키텍처 전반에 걸친 효과를 입증합니다.
- 네트워크 프 pruning과 INQ의 결합으로 압축 효과를 탐색합니다.
- 실용적인 비트너비 한계와 INQ의 수렴 동작을 보여줍니다.
제안 방법
- 가중치를 저정밀 기본(weight base)과 재훈련 가능 보상 그룹으로 분할하는 가중치 분할을 도입합니다.
- 기본 가중치를 2의 거듭제곱 또는 0으로 양자화하기 위해 가변 길이 부호화와 함께 그룹별 양자화를 적용합니다.
- 보상 그룹에서 재훈련을 수행하여 정확도를 회복하는 한편 기본 가중치는 고정시키고 방식을 진행합니다.
- 세 가지 연산(분할, 양자화, 재훈련)을 반복하여 모든 가중치를 양자화합니다.
- 제약 최적화를 사용합니다: W(i,j) ∈ P_l 인 양자화된 그룹에 대해 L(W) + λR(W)를 최소화하고, 비양자화 가중치에만 영향을 주는 SGD 업데이트를 수행합니다.
- 방정식 참조에는: 매핑을 위한 가중치 양자화 규칙(4) to P_l, n1/n2 결정(2,3), 마스크된 SGD 업데이트(8) 등이 포함됩니다.
실험 결과
연구 질문
- RQ1INQ를 사용하여 전체 정밀도 CNN을 정확도 손실 없이 저정밀 가중치로 양자화할 수 있는가?
- RQ2가중치 분할 전략이 최종 정확도와 수렴 속도에 어떤 영향을 미치는가?
- RQ3대규모 데이터셋에서 손실 없거나 거의 손실 없는 양자화를 허용하는 실현 가능한 비트 폭은 무엇인가?
- RQ4ImageNet에서 CNN의 프 pruning 및 기타 압축 기술과 INQ의 상호 작용은 어떠한가?
주요 결과
- AlexNet, VGG-16, GoogleNet, ResNet-18 및 ResNet-50에서 5비트 INQ는 대응하는 고정밀 기준선 대비 일관된 상위-1/상위-5 향상을 보여줍니다(상위-1 이득 0.13%–2.28%, 상위-5 이득 0.23%–1.65%).
- INQ는 일반적으로 각 이터레이션당 재학습 에폭 수가 8 미만으로 수렴이 쉬우며 손실 없는 5비트 양자화를 달성합니다.
- ResNet-18은 4비트, 3비트, 2비트 삼진 가중치에서 32비트 기준선에 비해 비슷하거나 향상된 정확도를 달성합니다(4비트와 3비트는 매우 근접; 2비트 삼진은 기준선보다 낮지만 이전의 일부 이진/삼진 모델보다는 낫습니다).
- Pruning+INQ는 AlexNet에 대해 Han 등(2016)의 딥 압축 방법을 능가하며, 정확도 유지 또는 향상을 유지하면서 더 높은 압축률을 달성합니다(예: 5비트 INQ+DNS의 53배 대 이전 작업의 27배/35배).
- 벡터 양자화 단독과 비교할 때 INQ는 정확도 보존 측면에서 우수한 성능을 보이며(5비트/4비트 양자화), 모든 계층을 양자화합니다-fully connected 계층뿐 아니라.
- INQ는 정확도를 유지하거나 개선하면서 상당한 압축을 달성할 수 있어 자원 제약 디바이스에서의 실용적 배치를 가능하게 합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.