QUICK REVIEW

[논문 리뷰] Fixed Point Quantization of Deep Convolutional Networks

Darryl Dexu Lin, Sachin S. Talathi|arXiv (Cornell University)|2015. 11. 19.

Advanced Neural Network Applications참고 문헌 26인용 수 606

한 줄 요약

이 논문은 심층 합성곱 신경망(DCNs)의 고정점 양자화를 위한 최적화 기반 방법을 제안하며, 신호 대 양자화 노이즈 비율(SQNR)을 사용하여 레이어 간 최적의 비트 폭 할당을 결정한다. CIFAR-10에서 정확도 손실 없이 모델 크기를 20% 이상 감소시키며, 최적화 후 6.78%의 오차율을 기록하여 새로운 최고 성능 기록을 수립함으로써, 효율적인 임베디드 배포를 위한 SQNR 기반 비트 폭 할당의 효과성을 입증한다.

ABSTRACT

In recent years increasingly complex architectures for deep convolution networks (DCNs) have been proposed to boost the performance on image recognition tasks. However, the gains in performance have come at a cost of substantial increase in computation and model storage resources. Fixed point implementation of DCNs has the potential to alleviate some of these complexities and facilitate potential deployment on embedded hardware. In this paper, we propose a quantizer design for fixed point implementation of DCNs. We formulate and solve an optimization problem to identify optimal fixed point bit-width allocation across DCN layers. Our experiments show that in comparison to equal bit-width settings, the fixed point DCNs with optimized bit width allocation offer >20% reduction in the model size without any loss in accuracy on CIFAR-10 benchmark. We also demonstrate that fine-tuning can further enhance the accuracy of fixed point DCNs beyond that of the original floating point model. In doing so, we report a new state-of-the-art fixed point performance of 6.78% error-rate on CIFAR-10 benchmark.

연구 동기 및 목표

임베디드 및 실시간 응용 분야에서 심층 합성곱 신경망(DCNs)의 증가하는 계산 및 저장 요구 사항을 해결하기 위해.
재학습이 필요 없이 사전 훈련된 부동소수점 DCN을 고정점 모델로 변환할 수 있는 체계적인 방법을 개발하여 자원 제약이 있는 하드웨어에서 효율적인 배포를 가능하게 하기 위해.
분류 정확도를 유지하면서 모델 크기를 최소화할 수 있도록 DCN 레이어 간 비트 폭 할당을 최적화하기 위해.
SQNR 기반 비트 폭 할당이 균일한 비트 폭 할당보다 우수하며, 최적화 후 미세조정을 통해 정확도를 추가로 향상시킬 수 있음을 검증하기 위해.

제안 방법

정확도 저하의 허용 최대치를 충족시키는 조건 하에 모델 크기를 최소화하는 최적화 문제를 설정하며, 양자화 노이즈 측정에 핵심 지표로 SQNR를 사용한다.
가중치 및 활성화의 비트 폭과 양자화 효율성(κ)을 바탕으로 이론적 SQNR 표현식을 유도하여 각 레이어의 양자화 노이즈를 예측할 수 있도록 한다.
SQNR 예측에 기반해 민감도가 낮은 레이어에는 적은 비트를, 핵심적인 레이어에는 더 많은 비트를 할당하는 교차 레이어 비트 폭 최적화 전략을 적용한다.
검색을 통한 전수 분석을 피하기 위해 레이어 간 비트 폭 관계를 사전에 분석적으로 계산함으로써 효율적이고 확장 가능한 배포를 가능하게 한다.
다양한 레이어에서의 실측 측정을 통해 SQNR 예측의 타당성을 검증하였으며, 소수의 수치적 이격이 있음에도 일관된 추세를 보였다.
양자화 이후에 미세조정을 수행하여 정확도를 추가로 향상시키며, 양자화 노이즈의 정규화 효과를 활용한다.

실험 결과

연구 질문

RQ1SQNR 기반 비트 폭 할당이 균일한 비트 폭 할당보다 정확도 손실 없이 모델 크기 감소 측면에서 우수한가?
RQ2제안된 최적화 방법은 표준 벤치마크에서 분류 정확도를 유지하면서 모델 크기를 얼마나 효과적으로 줄일 수 있는가?
RQ3고정점 변환 후에 수행하는 미세조정이 원래 부동소수점 모델보다 정확도를 추가로 향상시킬 수 있는가?
RQ4이러한 방법이 CIFAR-10 및 AlexNet 유사 네트워크와 같은 다양한 네트워크 아키텍처에 얼마나 일반화되는가?

주요 결과

제안된 SQNR 기반 비트 폭 최적화는 동일한 비트 폭 설정과 비교해 CIFAR-10 벤치마크에서 모델 크기를 20% 이상 감소시키며 정확도 손실 없이 성능을 유지한다.
이 방법은 미세조정 후 CIFAR-10에서 새로운 최고 성능 기록인 6.78%의 고정점 오차율을 달성하며, 원본 부동소수점 모델의 성능을 초월한다.
양자화 이후에 수행한 미세조정은 정확도를 향상시키며, (float, 8b) 설정에서 6.78%의 오차율을 기록하여 원본 부동소수점 모델의 6.98%보다 낮아졌다.
이론적 SQNR 예측 값은 추세 면에서 측정된 값과 밀접하게 일치하며, 소수의 수치적 이격이 있음에도 불구하고 모델의 신뢰성을 입증한다.
이 최적화 방법은 모델 크기가 주로 합성곱 레이어에 의해 지배될 경우 가장 효과적이며, 다른 구성 요소(예: 완전 연결 레이어)가 지배적인 경우는 덜 효과적이다.
이 방법은 사전 훈련된 모든 DCN을 고정점 모델로 효율적으로 오프라인 변환할 수 있으며, 훈련 데이터나 프레임워크에 접근할 필요 없이 임베디드 배포에 적합한 모델로 변환할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.