QUICK REVIEW

[논문 리뷰] Improving Neural Network Quantization without Retraining using Outlier Channel Splitting

Ritchie Zhao, Yuwei Hu|arXiv (Cornell University)|2019. 01. 28.

Advanced Neural Network Applications참고 문헌 31인용 수 150

한 줄 요약

이 논문은 Outlier Channel Splitting (OCS)을 제안하여 retraining 없이 floating-point DNN을 양자화하고, CNNs와 RNNs에서 하드웨어 오버헤드 최소로 클리핑보다 성능 우수.

ABSTRACT

Quantization can improve the execution latency and energy efficiency of neural networks on both commodity GPUs and specialized accelerators. The majority of existing literature focuses on training quantized DNNs, while this work examines the less-studied topic of quantizing a floating-point model without (re)training. DNN weights and activations follow a bell-shaped distribution post-training, while practical hardware uses a linear quantization grid. This leads to challenges in dealing with outliers in the distribution. Prior work has addressed this by clipping the outliers or using specialized hardware. In this work, we propose outlier channel splitting (OCS), which duplicates channels containing outliers, then halves the channel values. The network remains functionally identical, but affected outliers are moved toward the center of the distribution. OCS requires no additional training and works on commodity hardware. Experimental evaluation on ImageNet classification and language modeling shows that OCS can outperform state-of-the-art clipping techniques with only minor overhead.

연구 동기 및 목표

실세계 배치를 위한 retraining 없는 포스트 트레이닝 양자화를 고무한다.
이상치로 인한 양자화 오차를 값 분포를 재구성하여 해결한다.
Outlier Channel Splitting (OCS)을 실용적이고 하드웨어 친화적인 변환으로 도입한다.
CNN 및 RNN 모델 전반에서 clipping 및 다른 양자화 기법과의 체계적 비교를 수행한다.

제안 방법

각 층에서 가장 큰 절대값을 갖는 이상치 채널을 식별한다.
선택된 채널을 중복시키고 채널 출력 값을 절반으로 하거나 나가는 가중치를 절반으로 하여 기능 등가성을 보존한다(Net2WiderNet 변환).
분할 시 양자화 인식 분할(QA) 적용을 통해 분할 시 양자화 값을 보존한다.
층당 확장 비 r(ceil(r*C) per layer)으로 분할 수를 선택한다.
OCS를 가중치에 오프라인으로 적용하고 일반 하드웨어에서 활성화를 처리하기 위해 작은 런타임 레이어를 삽입한다.
가중치 및 활성화 양자화에 대해 ImageNet CNN 및 언어 모델에서 clipping 방법(MSE, ACIQ, KL)과 OCS를 비교한다.

실험 결과

연구 질문

RQ1 retraining 없이 채널 수준 이상치 조작으로 포스트 트레이닝 양자화가 높은 정확도를 달성할 수 있는가?
RQ2OCS는 가중치 및 활성화에 대해 다양한 비트 폭에서 clipping 기반 양자화와 어떻게 비교되는가?
RQ3OCS를 적용할 때 모델 크기 증가와 양자화 정확도 간의 트레이드오프는 무엇인가?
RQ4비트폭 전반에 걸쳐 정확성을 보존하기 위해 양자화 인식 분할이 필요한가?
RQ5CNN뿐만 아니라 RNN 기반 언어 모델에도 OCS가 효과적으로 확장될 수 있는가?

주요 결과

OCS는 소규모 네트워크 확장(r 작음)으로 가중치 양자화에서 최첨단 clipping 방법을 능가할 수 있다.
QA 분할은 양자화 결과를 보존하고 활성화/가중치 맥락에서 Naive Net2WiderNet 분할보다 우수하다.
활성화 양자화의 경우 일반적으로 clipping이 여전히 효과적이며, OCS는 제한된 이득만 and 동적 채널 선택 없이는 덜 효과적이다.
OCS와 clipping의 조합은 두 방법 중 어느 하나를 단독으로 사용하는 것보다 매우 낮은 정밀도에서 우수하다.
실험은 ImageNet CNN 및 WikiText-2에 대해 retraining 없이 향상된 포스트 트레이닝 양자화를 보여주며 관리 가능한 오버헤드를 가진다.
OCS 메모리 오버헤드는 확장 비 r에 가깝게 따라간다(가중치/활성화가 대략 1+r 증가).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.