Skip to main content
QUICK REVIEW

[논문 리뷰] On Activation Function Coresets for Network Pruning

Ben Mussay, Samson Zhou|arXiv (Cornell University)|2019. 07. 09.
Advanced Neural Network Applications참고 문헌 25인용 수 4
한 줄 요약

이 논문은 활성화 함수의 성질을 활용하여 풀연결 신경망에서 증명 가능하고 히우리스틱 기반의 모델 압축을 위한 데이터에 의존하지 않는 코어셋 방법을 제안한다. MNIST의 LeNet-300-100에서 최대 90%의 파라미터 감소를 가능하게 하는 코어셋을 구축하며, 테스트 정확도를 향상시켜 비용이 많이 드는 훈련 기반 샘플링이 필요 없게 한다.

ABSTRACT

Model compression provides a means to efficiently deploy deep neural networks (DNNs) on devices that limited computation resources and tight power budgets, such as mobile and IoT (Internet of Things) devices. Consequently, model compression is one of the most critical topics in modern deep learning. Typically, the state-of-the-art model compression methods suffer from a big limitation: they are only based on heuristics rather than theoretical foundation and thus offer no worst-case guarantees. To bridge this gap, Baykal et. al. [2018a] suggested using a coreset, a small weighted subset of the data that provably approximates the original data set, to sparsify the parameters of a trained fully-connected neural network by sampling a number of neural network parameters based on the importance of the data. However, the sampling procedure is data-dependent and can only be only be performed after an expensive training phase. We propose the use of data-independent coresets to perform provable model compression without the need for training. We first prove that there exists a coreset whose size is independent of the input size of the data for any neuron whose activation function is from a family of functions that includes variants of ReLU, sigmoid and others. We then provide a compression-based algorithm that constructs these coresets and explicitly applies neuron pruning for the underlying model. We demonstrate the effectiveness of our methods with experimental evaluations for both synthetic and real-world benchmark network compression. In particular, our framework provides up to 90% compression on the LeNet-300-100 architecture on MNIST and actually improves the accuracy.

연구 동기 및 목표

  • 기존의 모델 압축 방법이 히우리스틱 기반의 파라미터 희소화에 의존함에 따라 이론적 보장이 부족한 문제를 해결하기 위해.
  • 비용이 많이 드는 훈련 단계에 의존하지 않도록, 파라미터 압축을 위한 데이터에 의존하지 않는 코어셋을 도입함으로써 의존성을 제거하기 위해.
  • ReLU 및 시그모이드를 포함한 넓은 가족에 속하는 활성화 함수를 가진 뉴런을 위한 작고 크기가 독립적인 코어셋의 존재를 증명함으로써 모델 압축의 이론적 기반을 마련하기 위해.
  • 이러한 코어셋을 구성하고 압축된 모델에 직접 뉴런 압축을 적용할 수 있는 실용적인 알고리즘을 개발하기 위해.
  • 제안된 방법이 벤치마크 데이터셋에서 높은 압축률을 달성하면서도 모델 정확도를 유지하거나 향상시킬 수 있음을 보여주기 위해.

제안 방법

  • 활성화 함수가 특정 가족에 속할 경우, 입력 데이터 크기와 무관하게 크기가 독립적인 코어셋이 존재함을 증명한다.
  • 훈련 데이터 통계에 의존하지 않도록 활성화 함수의 기능적 성질에 기반한 데이터에 의존하지 않는 코어셋 구성 절차를 제안한다.
  • 입력 특징이 뉴런 출력에 기여하는 정도를 최소 오차로 근사함으로써 덜 중요한 뉴런을 식별하고 압축한다.
  • 구조적 뉴런 압축을 가능하게 하기 위해 반복적으로 코어셋을 구축하고 각 레이어에 적용하는 압축 기반 알고리즘을 설계한다.
  • 집중 부등식을 사용하여 코어셋 기반 파라미터 희소화에 의해 유도되는 오차를 경계함으로써 이론적 근사 보장을 확보한다.

실험 결과

연구 질문

  • RQ1풀연결 레이어에 대해 데이터에 의존하지 않는 코어셋을 구성할 수 있는가? 이 경우 결과 모델이 높은 정확도를 유지하면서 증명 가능한 보장을 갖출 수 있는가?
  • RQ2ReLU 및 시그모이드 가족에 속하는 활성화 함수에 대해 코어셋 크기가 입력 데이터 크기에 의존하는가?
  • RQ3제안된 코어셋 기반 압축 방법은 전체 훈련 단계 없이도 높은 압축률을 달성할 수 있는가?
  • RQ4압축된 모델의 정확도는 원본 모델 및 히우리스틱 기반 압축 방법과 비교하여 어떻게 되는가?
  • RQ5코어셋 기반 압축은 일반화를 향상시켜 원본 모델보다 더 높은 테스트 정확도를 달성할 수 있는가?

주요 결과

  • 제안된 방법은 MNIST 데이터셋의 LeNet-300-100 아키텍처에서 최대 90%의 파라미터 압축을 달성하여 모델 크기를 크게 감소시켰다.
  • 압축된 모델는 원본 네트워크보다 향상된 테스트 정확도를 확보하여, 압축이 일반화 성능을 향상시킬 수 있음을 보여주었다.
  • 코어셋 구성은 데이터에 의존하지 않아, 비용이 많이 드는 훈련 기반 샘플링 절차가 필요 없게 되었다.
  • 이론적 분석을 통해 제시된 가족에 속하는 활성화 함수를 가진 뉴런에 대해 코어셋 크기가 입력 데이터 크기와 독립적임을 증명하였다.
  • 이 방법은 증명 가능한 근사 보장을 제공하여 히우리스틱 기반 압축과 이론적으로 탄탄한 모델 압축 사이의 격차를 메웠다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.