QUICK REVIEW

[논문 리뷰] Compression of Deep Neural Networks on the Fly

Guillaume Soulié, Vincent Gripon|arXiv (Cornell University)|2015. 09. 29.

Advanced Neural Network Applications인용 수 1

한 줄 요약

이 논문은 학습 중에 이진 정규화 항을 도입하여 가중치가 0 또는 1로 수렴하도록 유도하고, 이를 바탕으로 제품 양자화(PQ)를 적용하여 실시간으로 딥 네ural 네트워크를 압축하는 새로운 방법을 제안한다. 이 방법은 MNIST에서 오직 2%의 정확도 손실로 107배의 압축률을 달성하며, 학습 단계에 정규화를 통합함으로써 기존의 후처리 압축 기법보다 뛰어나다.

ABSTRACT

Thanks to their state-of-the-art performance, deep neural networks are increasingly used for object recognition. To achieve these results, they use millions of parameters to be trained. However, when targeting embedded applications the size of these models becomes problematic. As a consequence, their usage on smartphones or other resource limited devices is prohibited. In this paper we introduce a novel compression method for deep neural networks that is performed during the learning phase. It consists in adding an extra regularization term to the cost function of fully-connected layers. We combine this method with Product Quantization (PQ) of the trained weights for higher savings in storage consumption. We evaluate our method on two data sets (MNIST and CIFAR10), on which we achieve significantly larger compression rates than state-of-the-art methods.

연구 동기 및 목표

스마트폰과 같은 자원 제약이 있는 장치에 배포하기 위해 딥 네ural 네트워크의 저장 공간을 줄이는 것.
최신 컨volutional 네ural 넷워크(CNN)에서 큰 모델 크기 문제를 해결하는 것. 이는 100MB를 초과할 수 있으며 임베디드 시스템에 배포를 어렵게 한다.
학습 단계 동안 압축을 수행하는 방법을 개발하여 후처리 단계에서의 압축이 아닌, 성능을 유지하면서도 더 높은 압축률을 달성하는 것.
층 깊이가 이진 양자화 성능에 미치는 영향을 조사하고, 이를 바탕으로 압축 전략을 최적화하는 것.

제안 방법

완전 연결 층의 가중치가 학습 도중 이진 값(0 또는 1)으로 수렴하도록 유도하기 위해 손실 함수에 새로운 정규화 항을 도입한다.
학습된 이진화된 가중치에 대해 제품 양자화(PQ)를 적용하여 저장 요구량을 추가로 줄인다.
일반적인 CNN에서 모델 크기의 90% 이상을 차지하는 완전 연결 층에 압축을 집중한다.
출력 층을 먼저 이진화하는 것이 성능과 저장 공간에 더 큰 영향을 미치므로, 우선순위를 여기에 두며.
하이브리드 접근 방식을 사용한다: 학습 중 이진 정규화를 적용하고, 추가로 압축을 위해 PQ를 적용한다.
층 단위 전략을 사용하여 출력 층에서 입력 층으로 향해 순차적으로 양자화함으로써 분류 정확도를 유지한다.

실험 결과

연구 질문

RQ1압축된 DNN에서 이진화된 층의 깊이가 분류 성능에 어떤 영향을 미치는가?
RQ2학습 중에 이진 정규화 항을 추가하면 정확도를 희생시키지 않고도 압축 효율을 향상시킬 수 있는가?
RQ3완전 연결 층에서 이진화의 최적의 층 순서는 무엇인가? (입력에서 출력으로 vs. 출력에서 입력으로)
RQ4제안된 실시간 압축 방법은 후처리 압축 기법과 비교해 압축률과 정확도 측면에서 어떻게 다른가?
RQ5학습된 이진 가중치와 결합했을 때, 제품 양자화(PQ)가 얼마나 더 높은 압축을 가능하게 하는가?

주요 결과

이 방법은 MNIST 데이터셋에서 오직 2%의 정확도 손실로 107배의 압축률을 달성하며, 기존의 최첨단 기법보다 뛰어나다.
두 개의 출력 완전 연결 층만 압축해도 모델 저장 용량을 26MB에서 550KB로 줄일 수 있어 뚜렷한 메모리 절감 효과를 보였다.
입력 층을 먼저 이진화할 경우 성능 저하가 심각하게 발생한다. 최고의 성능는 출력 층을 먼저 이진화했을 때 달성된다.
심지어 극도로 높은 압축률에서도 높은 정확도를 유지하며, 마지막 층만 이진화했을 경우 MNIST에서 테스트 오차가 0.88%에 머무른다.
실시간 이진 정규화와 PQ의 조합은 PQ 단독 사용보다 더 높은 압축률을 가능하게 하며, 단일 PQ를 사용했을 경우 33배의 압축률을 기록한 데 비해 제안된 방법은 107배의 압축률을 달성했다.
연구 결과, 출력 층이 이진화에 더 적합함을 확인했으며, 이는 고수준의 특징 탐지 기능을 수행하기 때문이며, 생물학적으로 타당한 결과와 일치한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.