Skip to main content
QUICK REVIEW

[논문 리뷰] Compressing Deep Convolutional Networks using Vector Quantization

Yunchao Gong, Liu Liu|arXiv (Cornell University)|2014. 12. 18.
Advanced Neural Network Applications참고 문헌 20인용 수 1,018
한 줄 요약

이 논문은 밀집 연결 층의 크기를 줄이기 위해 벡터 양자화—특히 k-means 클러스터링과 제품 양자화—를 사용하여 딥 컨volution 네트워크를 압축하는 방법을 제안한다. ImageNet에서 최대 24배의 압축을 달성하면서 정확도 손실가 1% 미만을 유지하여 대규모 모델을 모바일 및 임베디드 디바이스에 배포할 수 있게 한다.

ABSTRACT

Deep convolutional neural networks (CNN) has become the most promising method for object recognition, repeatedly demonstrating record breaking results for image classification and object detection in recent years. However, a very deep CNN generally involves many layers with millions of parameters, making the storage of the network model to be extremely large. This prohibits the usage of deep CNNs on resource limited hardware, especially cell phones or other embedded devices. In this paper, we tackle this model storage issue by investigating information theoretical vector quantization methods for compressing the parameters of CNNs. In particular, we have found in terms of compressing the most storage demanding dense connected layers, vector quantization methods have a clear gain over existing matrix factorization methods. Simply applying k-means clustering to the weights or conducting product quantization can lead to a very good balance between model size and recognition accuracy. For the 1000-category classification task in the ImageNet challenge, we are able to achieve 16-24 times compression of the network with only 1% loss of classification accuracy using the state-of-the-art CNN.

연구 동기 및 목표

  • 스마트폰과 같은 자원 제약이 있는 디바이스에 대규모 딥 컨volution 네트워크 모델을 저장하는 문제를 해결한다.
  • 기존의 행렬 분해 방법이 추론 속도 향상에 집중하는 데 반해 모델 크기 감소에 한계가 있다는 점을 극복한다.
  • 밀집 층을 압축하기 위한 행렬 분해의 대안으로서의 벡터 양자화 기법을 체계적으로 평가한다.
  • 이전 방법들에 비해 더 높은 압축 비율을 달성하면서도 높은 정확도를 유지할 수 있음을 입증한다.
  • 이미지 분류를 넘어서 이미지 검색 작업을 포함한 다양한 후행 작업에서도 압축된 모델의 일반화 능력을 검증한다.

제안 방법

  • 밀집 연결 층의 가중치를 이산 코드북으로 양자화하기 위해 k-means 클러스터링을 적용하여 파rameter 정밀도를 낮춘다.
  • 제품 양자화(PQ)를 사용하여 가중치 벡터를 부분 벡터로 분할하고 각각을 별도로 양자화함으로써 높은 압축률과 낮은 오차를 달성한다.
  • 재구성 정확도를 향상시키기 위해 더 구조화된 양자화 방법인 잔차 양자화(RQ)를 탐색한다.
  • 원본 CNN 모델을 먼저 훈련한 후, 미세조정 없이 훈련 후에만 완전히 연결된 층들만 양자화한다.
  • 기존의 정밀도를 유지한 가중치가 아닌, 양자화된 코드북과 인덱스만 저장함으로써 모델 크기를 극적으로 줄인다.
  • Holidays 데이터셋에서 이미지 검색 평가를 위해 마지막 레이어에서 추출한 2048D 특징 간 코사인 유사도를 사용한다.

실험 결과

연구 질문

  • RQ1벡터 양자화 기법이 행렬 분해보다 딥 CNN의 저장 공간 감소에 더 나은 성능을 보일 수 있는가?
  • RQ2k-means 기반 스칼라 양자화는 제품 양자화와 같은 구조적 양자화 방법에 비해 압축률과 정확도 측면에서 어떻게 비교되는가?
  • RQ3압축된 CNN 모델이 이미지 검색과 같은 후행 작업에서 얼마나 높은 성능을 유지할 수 있는가?
  • RQ4다양한 양자화 전략을 사용할 경우 압축 비율과 정확도 손실 사이의 상충 관계는 어떠한가?
  • RQ51비트 또는 2비트와 같은 저비트 양자화도 실세계 응용에서 충분한 표현 능력을 유지할 수 있는가?

주요 결과

  • 32개의 중심을 가진 k-means 양자화(1웨이트당 5.3비트)는 ImageNet에서 16배의 압축을 달성했고, 상위 5개 정확도 손실이 0.5%에 불과했다.
  • 제품 양자화(PQ)는 ImageNet에서 최대 24배의 압축을 달성했고, 정확도 손실이 1% 미만이었으며, 기존의 행렬 분해 방법을 능가했다.
  • 1비트 k-means 양자화(2개의 중심)는 32배의 압축을 달성했고, Holidays 데이터셋에서 mAP 67.61을 기록했으며, 원본 특징을 초월했다.
  • 압축된 모델은 이미지 검색 작업으로도 잘 일반화되었으며, PQ는 13.7배의 압축 비율에서 mAP 66.37을 달성해 원본의 66.43mAP와 매우 유사했다.
  • 결과는 CNN 내부의 유용한 가중치가 매우 높은 재현성(중복성)을 가지며, 20배의 압축 비율은 약 5%의 가중치만 필수적이라는 이전 연구 결과와 일치함을 확인했다.
  • 잔차 양자화(RQ)는 성능이 열악하여 향후 분석에서 제외되었으며, 이는 이 작업에 대해 덜 효과적임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.