QUICK REVIEW

[논문 리뷰] Transform Quantization for CNN (Convolutional Neural Network) Compression

Sean I. Young, Zhe Wang|arXiv (Cornell University)|2020. 09. 02.

Advanced Neural Network Applications참고 문헌 97인용 수 74

한 줄 요약

이 논문은 학습 후 기반의 CNN 가중치 압축을 위한 변환 양자화를 제안하며, 비용-왜곡 프레임워크를 통해 학습된 상관관계 제거 변환과 비트 깊이 할당을 동시에 최적화한다. 이는 아오텍스넷, 리스넷, 딥넷과 같은 모델을 1~2비트의 낮은 비트 레이트로 효율적으로 압축하면서 정확도 손실를 최소화하는 최첨단 성능을 달성한다.

ABSTRACT

In this paper, we compress convolutional neural network (CNN) weights post-training via transform quantization. Previous CNN quantization techniques tend to ignore the joint statistics of weights and activations, producing sub-optimal CNN performance at a given quantization bit-rate, or consider their joint statistics during training only and do not facilitate efficient compression of already trained CNN models. We optimally transform (decorrelate) and quantize the weights post-training using a rate-distortion framework to improve compression at any given quantization bit-rate. Transform quantization unifies quantization and dimensionality reduction (decorrelation) techniques in a single framework to facilitate low bit-rate compression of CNNs and efficient inference in the transform domain. We first introduce a theory of rate and distortion for CNN quantization, and pose optimum quantization as a rate-distortion optimization problem. We then show that this problem can be solved using optimal bit-depth allocation following decorrelation by the optimal End-to-end Learned Transform (ELT) we derive in this paper. Experiments demonstrate that transform quantization advances the state of the art in CNN compression in both retrained and non-retrained quantization scenarios. In particular, we find that transform quantization with retraining is able to compress CNN models such as AlexNet, ResNet and DenseNet to very low bit-rates (1-2 bits).

연구 동기 및 목표

가중치와 활성화의 공동 통계를 忽시하는 기존 CNN 양자화 방법의 열악한 성능을 해결하기 위해.
재학습 없이도 기존에 학습된 CNN 모델을 효율적으로 저비트 레이트로 압축할 수 있도록 하기 위해.
차원 축소, 양자화, 프루닝을 하나의 비용-왜곡 최적화 프레임워크 내에서 통합하기 위해.
가중치의 상관관계를 제거하고 최적의 비트 깊이 할당을 가능하게 하여 압축 성능을 극대화하는 엔드 투 엔드 학습된 변환(ELT)을 도출하기 위해.

제안 방법

가중치 압축을 비용-왜곡 최적화 문제로 공식화하여, 비트 레이트 제약 하에 출력 왜곡을 최소화한다.
가중치 행렬에 학습된 상관관계 제거 변환(ELT)을 적용하여 부여를 감소시키고 효율적인 양자화를 가능하게 한다.
출력 왜곡을 최소화하기 위해 변환 계수 간의 비트 깊이 할당을 최적화하며, 가중치 편향과 출력 오차 간의 관계를 일阶 테일러 근사로 연결한다.
의미 없는 계수를 0으로 양자화하는 변환 도메인 표현 방식을 사용하여 프루닝을 모방한다.
최적의 변환을 가중치 공분산 행렬과 활성화 공분산 행렬의 곱에 대한 일반화된 고유값 분해로 유도한다.
다른 변환 채널에 서로 다른 비트 깊이를 할당함으로써 혼합 정밀도 추론을 지원한다.

실험 결과

연구 질문

RQ1학습 후 단계에서 가중치와 활성화의 공동 통계를 활용하여 CNN 압축 효율을 향상시킬 수 있는가?
RQ2변환과 비트 깊이 할당을 동시에 최적화하는 것이 스칼라 양자화만으로는 달성할 수 없는 더 나은 압축 성능을 낼 수 있는가?
RQ3학습된 변환은 DCT나 KLT와 같은 고전적 변환보다 저비트 레이트 CNN 압축에서 더 나은 성능을 낼 수 있는가?
RQ4제안된 프레임워크는 다양한 CNN 아키텍처에서 재학습 여부에 관계없이 어떻게 성능을 발휘하는가?
RQ5최적의 변환과 KLT, SVD와 같은 고전적 변환 간의 이론적 관계는 무엇인가?

주요 결과

변환 양자화는 재학습 여부에 관계없이 아오텍스넷, 리스넷, 딥넷을 포함한 다양한 CNN에 대해 최첨단의 압축 성능을 달성한다.
재학습이 수반될 경우, 이 방법은 1~2비트/가중치로 모델을 압축하면서도 높은 정확도를 유지하며, 이는 이전 방법들보다 뚜렷이 뛰어난 성능을 보인다.
엔드 투 엔드 학습된 변환(ELT)은 이론적 최적 성능과 유사한 성능을 달성하며, 아오텍스넷의 코어 내부 변환 코딩에서 최대 19.8dB의 성능 향상을 이룬다.
출력 왜곡을 최소화하기 위해 유도된 최적의 비트 깊이 할당은 균일한 비트 할당보다 뛰어나며, 저비트 레이트에서 더 나은 성능을 낸다.
이 프레임워크는 변환 도메인에서 효율적인 추론을 가능하게 하며, 전용 하드웨어에서 혼합 정밀도 배포를 지원한다.
이론적 분석을 통해 최적의 변환은 가중치 공분산 행렬과 활성화 공분산 행렬의 곱에 대한 일반화된 고유값 분해와 동일하다는 것이 밝혀졌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.