Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Efficient Convolutional Networks through Network Slimming

Zhuang Liu, Jianguo Li|arXiv (Cornell University)|2017. 08. 22.
Advanced Neural Network Applications참고 문헌 32인용 수 269
한 줄 요약

이 논문은 Network Slimming을 도입합니다. 이것은 채널 수준의 희소성을 학습하도록 BN 스케일링 팩터에 L1 정규화를 적용하는 학습 스킴으로, 특별한 하드웨어 없이도 중요하지 않은 채널의 자동 가지치기를 가능하게 하여 정확도를 유지하거나 개선하면서도 컴팩트한 CNN을 얻습니다. CIFAR, SVHN, ImageNet에서 VGGNet, ResNet, DenseNet 전반에 걸쳐 최대 약 20배의 모델 크기 축소와 약 5배의 FLOPs 감소를 보여줍니다.

ABSTRACT

The deployment of deep convolutional neural networks (CNNs) in many real world applications is largely hindered by their high computational cost. In this paper, we propose a novel learning scheme for CNNs to simultaneously 1) reduce the model size; 2) decrease the run-time memory footprint; and 3) lower the number of computing operations, without compromising accuracy. This is achieved by enforcing channel-level sparsity in the network in a simple but effective way. Different from many existing approaches, the proposed method directly applies to modern CNN architectures, introduces minimum overhead to the training process, and requires no special software/hardware accelerators for the resulting models. We call our approach network slimming, which takes wide and large networks as input models, but during training insignificant channels are automatically identified and pruned afterwards, yielding thin and compact models with comparable accuracy. We empirically demonstrate the effectiveness of our approach with several state-of-the-art CNN models, including VGGNet, ResNet and DenseNet, on various image classification datasets. For VGGNet, a multi-pass version of network slimming gives a 20x reduction in model size and a 5x reduction in computing operations.

연구 동기 및 목표

  • 자원 제약 환경에서 모델 크기, 실행 시간 메모리, 계산 비용으로 인해 대형 CNN의 배포 과제가 존재한다는 점을 동기 부여한다.
  • 채널 단위 가지치기로 네트워크를 자동으로 슬림화하기 위한 간단하고 아키텍처에 구애받지 않는 학습 스킴을 제안한다.
  • 채널 수준의 희소성이 여러 아키텍처와 데이터셋에 걸쳐 매개변수와 FLOPs를 크게 줄이면서 정확도를 유지하거나 개선할 수 있음을 보인다.

제안 방법

  • 각 BN 층의 출력에 채널 단위 스케일링 팩터 gamma를 부여하고 W(가중치)와 Gamma를 Gamma에 대한 L1 희소성 페널티와 함께 학습한다.
  • L1 정규화를 사용하여 Gamma 값을 0에 가깝게 밀어 채널의 중요 여부를 자동으로 식별 가능하게 한다.
  • 전역 분위수 임계값을 사용하여 거의 0에 가까운 Gamma 값을 가진 채널을 가지치고, 그 다음 축소된 모델을 파인 튜닝한다.
  • 네트워크 아키텍처를 변경하거나 희소 연산 라이브러리가 필요 없이 BN 스케일링 팩터를 직접 가지치기 신호로 활용한다.
  • 추가 압축을 얻기 위해 다중 패스 방식으로 과정을 반복하는 것도 옵션이다.
  • 교차 계층 연결 및 프리액티베이션 구조를 갖는 네트워크에 대해 층별로 들어오는 채널을 가지치고 추론 시 채널 선택을 적용하여 가지치기를 조정한다.

실험 결과

연구 질문

  • RQ1학습 중에 학습된 채널 수준의 희소성이 모델 크기, 메모리 점유, FLOPs를 실질적으로 줄이면서 정확도 손실 없이 달성될 수 있는가?
  • RQ2다양한 CNN 아키텍처(VGGNet, ResNet, DenseNet)와 데이터셋(CIFAR-10/100, SVHN, ImageNet)에서 네트워크 슬림링이 얼마나 효과적인가?
  • RQ3희소성 규제 강도와 가지치기 비율이 최종 정확도와 자원 절감에 미치는 실질적인 영향은 무엇인가?
  • RQ4다중 패스 슬림닝이 단일 패스 방식에 비해 압축 및 정확도에 있어 얼마나 차이가 나는가?

주요 결과

  • 네트워크 슬림링은 여러 아키텍처와 데이터셋에서 정확도 손실이 크지 않거나 거의 없이 자원 감소를 크게 달성한다.
  • 가지치기로 채널의 60-70%까지도 손실 없이 또는 파인튜닝 후 정확도를 향상시킬 수 있다.
  • CIFAR-10/SVHN에서 매개변수 감소가 최대 약 10x, FLOP 감소가 약 50%에 달하며 정확도는 유지된다.
  • ImageNet에서 채널의 50%를 가지치면 매개변수 절감이 5배 이상이고 FLOP 감소은 최대 약 30%이며 VGG-A에서 정확도 손실이 없다.
  • L1 희소성의 정규화 효과가 일반화 성능을 향상시키기도 하며, 가지치기 및 파인 튜닝 후 테스트 오류가 감소하는 경우도 있다.
  • 다중 패스 슬림링은 일부 모델과 데이터셋에서 추가적인 압축 및 정확도 이점을 제공할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.