Skip to main content
QUICK REVIEW

[논문 리뷰] Transform Quantization for CNN (Convolutional Neural Network) Compression

Sean I. Young, Zhe Wang|arXiv (Cornell University)|2020. 09. 02.
Advanced Neural Network Applications참고 문헌 97인용 수 74
한 줄 요약

이 논문은 학습 후 기반의 CNN 가중치 압축을 위한 변환 양자화를 제안하며, 비용-왜곡 프레임워크를 통해 학습된 상관관계 제거 변환과 비트 깊이 할당을 동시에 최적화한다. 이는 아오텍스넷, 리스넷, 딥넷과 같은 모델을 1~2비트의 낮은 비트 레이트로 효율적으로 압축하면서 정확도 손실를 최소화하는 최첨단 성능을 달성한다.

ABSTRACT

In this paper, we compress convolutional neural network (CNN) weights post-training via transform quantization. Previous CNN quantization techniques tend to ignore the joint statistics of weights and activations, producing sub-optimal CNN performance at a given quantization bit-rate, or consider their joint statistics during training only and do not facilitate efficient compression of already trained CNN models. We optimally transform (decorrelate) and quantize the weights post-training using a rate-distortion framework to improve compression at any given quantization bit-rate. Transform quantization unifies quantization and dimensionality reduction (decorrelation) techniques in a single framework to facilitate low bit-rate compression of CNNs and efficient inference in the transform domain. We first introduce a theory of rate and distortion for CNN quantization, and pose optimum quantization as a rate-distortion optimization problem. We then show that this problem can be solved using optimal bit-depth allocation following decorrelation by the optimal End-to-end Learned Transform (ELT) we derive in this paper. Experiments demonstrate that transform quantization advances the state of the art in CNN compression in both retrained and non-retrained quantization scenarios. In particular, we find that transform quantization with retraining is able to compress CNN models such as AlexNet, ResNet and DenseNet to very low bit-rates (1-2 bits).

연구 동기 및 목표

  • 가중치와 활성화의 공동 통계를 忽시하는 기존 CNN 양자화 방법의 열악한 성능을 해결하기 위해.
  • 재학습 없이도 기존에 학습된 CNN 모델을 효율적으로 저비트 레이트로 압축할 수 있도록 하기 위해.
  • 차원 축소, 양자화, 프루닝을 하나의 비용-왜곡 최적화 프레임워크 내에서 통합하기 위해.
  • 가중치의 상관관계를 제거하고 최적의 비트 깊이 할당을 가능하게 하여 압축 성능을 극대화하는 엔드 투 엔드 학습된 변환(ELT)을 도출하기 위해.

제안 방법

  • 가중치 압축을 비용-왜곡 최적화 문제로 공식화하여, 비트 레이트 제약 하에 출력 왜곡을 최소화한다.
  • 가중치 행렬에 학습된 상관관계 제거 변환(ELT)을 적용하여 부여를 감소시키고 효율적인 양자화를 가능하게 한다.
  • 출력 왜곡을 최소화하기 위해 변환 계수 간의 비트 깊이 할당을 최적화하며, 가중치 편향과 출력 오차 간의 관계를 일阶 테일러 근사로 연결한다.
  • 의미 없는 계수를 0으로 양자화하는 변환 도메인 표현 방식을 사용하여 프루닝을 모방한다.
  • 최적의 변환을 가중치 공분산 행렬과 활성화 공분산 행렬의 곱에 대한 일반화된 고유값 분해로 유도한다.
  • 다른 변환 채널에 서로 다른 비트 깊이를 할당함으로써 혼합 정밀도 추론을 지원한다.

실험 결과

연구 질문

  • RQ1학습 후 단계에서 가중치와 활성화의 공동 통계를 활용하여 CNN 압축 효율을 향상시킬 수 있는가?
  • RQ2변환과 비트 깊이 할당을 동시에 최적화하는 것이 스칼라 양자화만으로는 달성할 수 없는 더 나은 압축 성능을 낼 수 있는가?
  • RQ3학습된 변환은 DCT나 KLT와 같은 고전적 변환보다 저비트 레이트 CNN 압축에서 더 나은 성능을 낼 수 있는가?
  • RQ4제안된 프레임워크는 다양한 CNN 아키텍처에서 재학습 여부에 관계없이 어떻게 성능을 발휘하는가?
  • RQ5최적의 변환과 KLT, SVD와 같은 고전적 변환 간의 이론적 관계는 무엇인가?

주요 결과

  • 변환 양자화는 재학습 여부에 관계없이 아오텍스넷, 리스넷, 딥넷을 포함한 다양한 CNN에 대해 최첨단의 압축 성능을 달성한다.
  • 재학습이 수반될 경우, 이 방법은 1~2비트/가중치로 모델을 압축하면서도 높은 정확도를 유지하며, 이는 이전 방법들보다 뚜렷이 뛰어난 성능을 보인다.
  • 엔드 투 엔드 학습된 변환(ELT)은 이론적 최적 성능과 유사한 성능을 달성하며, 아오텍스넷의 코어 내부 변환 코딩에서 최대 19.8dB의 성능 향상을 이룬다.
  • 출력 왜곡을 최소화하기 위해 유도된 최적의 비트 깊이 할당은 균일한 비트 할당보다 뛰어나며, 저비트 레이트에서 더 나은 성능을 낸다.
  • 이 프레임워크는 변환 도메인에서 효율적인 추론을 가능하게 하며, 전용 하드웨어에서 혼합 정밀도 배포를 지원한다.
  • 이론적 분석을 통해 최적의 변환은 가중치 공분산 행렬과 활성화 공분산 행렬의 곱에 대한 일반화된 고유값 분해와 동일하다는 것이 밝혀졌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.