[논문 리뷰] Trained Ternary Quantization
Trained Ternary Quantization (TTQ) 는 각 층마다 학습 가능한 양의 스케일링 계수와 음의 스케일링 계수를 갖는 3진 가중치를 학습하며, 약 16배의 모델 크기 감소를 달성하고 정확도 손실은 최소화되며 CIFAR-10과 ImageNet에서 약간의 향상까지 얻는다.
Deep neural networks are widely used in machine learning applications. However, the deployment of large neural networks models can be difficult to deploy on mobile devices with limited power budgets. To solve this problem, we propose Trained Ternary Quantization (TTQ), a method that can reduce the precision of weights in neural networks to ternary values. This method has very little accuracy degradation and can even improve the accuracy of some models (32, 44, 56-layer ResNet) on CIFAR-10 and AlexNet on ImageNet. And our AlexNet model is trained from scratch, which means it's as easy as to train normal full precision model. We highlight our trained quantization method that can learn both ternary values and ternary assignment. During inference, only ternary values (2-bit weights) and scaling factors are needed, therefore our models are nearly 16x smaller than full-precision models. Our ternary models can also be viewed as sparse binary weight networks, which can potentially be accelerated with custom circuit. Experiments on CIFAR-10 show that the ternary models obtained by trained quantization method outperform full-precision models of ResNet-32,44,56 by 0.04%, 0.16%, 0.36%, respectively. On ImageNet, our model outperforms full-precision AlexNet model by 0.3% of Top-1 accuracy and outperforms previous ternary models by 3%.
연구 동기 및 목표
- 모바일 기기에서의 모델 크기 및 에너지 소모를 줄여 딥 뉴럴 네트워크의 배치를 촉진한다.
- 가중치에 대해 3진 값과 3진 할당을 학습하는 양자화 방법을 도입한다.
- 양자화 지침을 안내하기 위해 학습 중 잠재적 완전 정밀도 가중치를 유지한다.
- 퀀타이제이션된 3진 가중치와 층별 스케일링 계수만으로 효율적인 추론을 가능하게 한다.
- CIFAR-10 및 ImageNet에서 전체 정밀도 모델과 비교해 향상되거나 유사한 정확도를 보여준다.
제안 방법
- 가중치를 {+Wp_l, 0, -Wn_l}로 양자화하기 위해 각 층의 스케일링 계수 Wp_l 및 Wn_l 을 사용한다.
- 3진 값과 할당을 학습하기 위해 잠재적 완전 정밀도 가중치와 스케일링 계수에 대해 역전파를 수행한다.
- 레이어의 최대 절대 가중치에 비례하는 Delta_l를 통해 임계값으로 양자화하며, 층 간에 고정된 인자 t를 적용한다.
- 학습 중, 코드를 업데이트하고 잠재적 가중치를 업데이트하기 위해 Ip_l 및 In_l의 식을 사용하여 Wp_l, Wn_l에 역전파를 수행한다.
- 추론 시 완전 정밀도 가중치를 버리고 3진 가중치와 스케일링 계수만으로 계산에 사용한다.
- 고정 임계값 휴리스틱을 통해 희소성을 탐구하고 학습 과정에서 Wp_l과 Wn_l의 층별 동작을 보여준다.
실험 결과
연구 질문
- RQ1TTQ가 aggressive quantization에도 불구하고 CIFAR-10 및 ImageNet에서 전체 정밀도 네트워크와 비교해 정확도를 유지하거나 향상시킬 수 있는가?
- RQ2학습 가능한 3진 값과 비대칭 스케일링 계수가 모델 용량과 학습 역학에 어떤 영향을 미치는가?
- RQ3일반적인 아키텍처 전반에서 TTQ의 압축 및 에너지 효율 이점은 무엇인가?
- RQ4TTQ가 기존의 3진/바이너리 양자화 방법(TWN, DoReFa-Net 등)과 표준 벤치마크에서 어떻게 비교되는가?
주요 결과
- TTQ는 층별 스케일링 계수를 사용하여 2비트 3진 가중치를 적용함으로써 매개변수 크기를 16배로 감소시킨다.
- CIFAR-10에서 TTQ는 ResNet-32/44/56의 정확도를 각각 0.04%, 0.16%, 0.36% 향상시키며 전체 정밀도 기준선보다 좋다.
- ImageNet에서 AlexNet을 처음부터 학습한 TTQ는 Top-1 정확도 42.5%에 도달하여 전체 정밀도 AlexNet보다 1.6% 향상되고, 보고된 결과들에서 기존의 3진 모델보다 약 0.3% 정도 더 우수하다.
- TTQ는 ImageNet에서 기존의 3진 네트워크(TWN)보다 대략 Top-1로 3% 더 우수하다.
- Wp_l ≠ Wn_l의 비대칭성이 모델 용량을 증가시키고 3진 가중치는 역전파 중 학습률 승수로 작용한다.
- 시각화 결과 학습된 3진 커널은 저정밀도에도 핵심 에지/코너 탐지기를 보존하여 효과적인 특징 추출을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.