QUICK REVIEW

[논문 리뷰] Mixed Precision Quantization of ConvNets via Differentiable Neural Architecture Search

BoRui Wu, Yanghan Wang|arXiv (Cornell University)|2018. 11. 30.

Advanced Neural Network Applications참고 문헌 24인용 수 199

한 줄 요약

본 논문은 혼합 정밀도 양자화를 신경망 구조 검색(neural architecture search) 문제로 공식화하고, 계층별 비트폭을 할당하는 differentiable neural architecture search (DNAS)를 도입하여 ResNet 모델에서 정확도를 유지한 채 상당한 압축을 달성한다. 이 접근법은 전통적 NAS보다 현저히 빠르며 다양한 하드웨어 비용 지표에 적응 가능하다.

ABSTRACT

Recent work in network quantization has substantially reduced the time and space complexity of neural network inference, enabling their deployment on embedded and mobile devices with limited computational and memory resources. However, existing quantization methods often represent all weights and activations with the same precision (bit-width). In this paper, we explore a new dimension of the design space: quantizing different layers with different bit-widths. We formulate this problem as a neural architecture search problem and propose a novel differentiable neural architecture search (DNAS) framework to efficiently explore its exponential search space with gradient-based optimization. Experiments show we surpass the state-of-the-art compression of ResNet on CIFAR-10 and ImageNet. Our quantized models with 21.1x smaller model size or 103.9x lower computational cost can still outperform baseline quantized or even full precision models.

연구 동기 및 목표

일관된 양자화가 아닌 계층별로 서로 다른 비트 폭을 허용함으로써 추론 비용과 메모리 사용량을 줄이는 것을 동기로 삼는다.
레이어별 정밀도들을 탐색하기 위한 효율적인 NAS 기반 프레임워크(DNAS)를 제안한다.
혼합 정밀도 양자화가 최신의 압축보다 우수한 성능을 보이면서 정확도를 유지하거나 향상시킬 수 있음을 시연한다.
DNAS 접근법이 ImageNet의 ResNet과 같은 대형 네트워크에 대해 빠르고 확장 가능함을 보여준다.

제안 방법

아키텍처 공간을 서로 다른 양자화 비트 폭을 갖는 합성 컨볼루션 연산자들로 이루어진 확률적 슈퍼 넷으로 표현한다.
아키텍처 매개변수로 이산적인 간선 선택을 완화하고 differentiable gradient-based 최적화를 가능하게 하기 위해 Gumbel SoftMax를 사용한다.
학습된 분포에서 후보 아키텍처를 샘플링하면서 SGD로 가중치와 아키텍처 매개변수를 함께 학습한다.
가 정의된 Cost(a) 함수로 모델 크기나 계산 비용과 정확도(교차 엔트로피)를 균형 있게 고려하는 비용 인식 목적 함수를 정의한다.
DNAS 프레임워크를 CIFAR-10 및 ImageNet의 ResNet에 적용하여 계층별 정밀도 할당을 찾는다.
DoReFa-Net과 PACT에 따라 가중치와 활성화를 양자화하고, 블록 단위의 혼합 정밀도 탐색과 온도 감쇠된 Gumbel 샘플링을 사용한다.

실험 결과

연구 질문

RQ1혼합 정밀도 양자화가 differentiable NAS를 통해 최적화될 때 정확도와 압축 측면에서 균일 정밀화보다 우수한가?
RQ2계층 간 지수적 비트 폭 구성을 prohibitive compute 없이 효율적으로 검색할 수 있는가?
RQ3ResNet과 같은 대형 아키텍처에서 계층별 비트 폭 선택이 모델 크기와 FLOP 감소에 어떤 영향을 미치는가?
RQ4DNAS 프레임워크가 실제 모델 압축 작업에 충분히 빠른가?

주요 결과

양자화된 모델은 최대 21.1x의 모델 크기 감소 또는 103.9x의 계산 비용 감소를 달성하면서 일부 경우에 기본 양자화 모델이나 심지어 전체 정밀도 모델보다 더 나은 정확도를 보인다.
CIFAR-10에서 혼합 정밀도 ResNet 변형은 전체 정밀도 정확도보다 최대 0.37% 높고 11.6–16.6x의 압축을 달성하며; 일부 구성은 16.6–20.3x 압축으로도 0.39% 미만의 정확도 손실을 보인다.
ImageNet에서 ResNet-18/34의 최고 아키텍처는 0.18–0.49%의 정확도 이득과 약 10.6–11.2x의 모델 크기 감소(MA)를 달성하거나 경쟁력 있는 정확도(ME)로 19.0–21.1x 감소를 달성한다.
TTQ 및 ADMM 기본설계와 비교할 때, DNAS 아키텍처는 모델 크기와 계산 비용 실험에서 유사하거나 더 큰 압축 수준에서 더 높은 정확도를 유지한다.
DNAS 파이프라인은 ImageNet의 ResNet-18에 대해 8_v100 GPU에서 5시간 이내에 탐색을 완료하며, 기존의 NAS 접근법에 비해 실용적 효율성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.