Skip to main content
QUICK REVIEW

[논문 리뷰] Soft Filter Pruning for Accelerating Deep Convolutional Neural Networks

Yang He, Guoliang Kang|arXiv (Cornell University)|2018. 08. 21.
Advanced Neural Network Applications참고 문헌 20인용 수 70
한 줄 요약

Soft Filter Pruning (SFP)는 작은 노름의 필터를 0으로 설정하고 이후 에포크에서 업데이트되도록 허용함으로써 학습 중 필터를 가지치기하여 더 큰 모델 용량과 사전 학습 모델에 대한 과도한 의존 없이 효과적인 가속을 가능하게 한다.

ABSTRACT

This paper proposed a Soft Filter Pruning (SFP) method to accelerate the inference procedure of deep Convolutional Neural Networks (CNNs). Specifically, the proposed SFP enables the pruned filters to be updated when training the model after pruning. SFP has two advantages over previous works: (1) Larger model capacity. Updating previously pruned filters provides our approach with larger optimization space than fixing the filters to zero. Therefore, the network trained by our method has a larger model capacity to learn from the training data. (2) Less dependence on the pre-trained model. Large capacity enables SFP to train from scratch and prune the model simultaneously. In contrast, previous filter pruning methods should be conducted on the basis of the pre-trained model to guarantee their performance. Empirically, SFP from scratch outperforms the previous filter pruning methods. Moreover, our approach has been demonstrated effective for many advanced CNN architectures. Notably, on ILSCRC-2012, SFP reduces more than 42% FLOPs on ResNet-101 with even 0.2% top-5 accuracy improvement, which has advanced the state-of-the-art. Code is publicly available on GitHub: https://github.com/he-y/soft-filter-pruning

연구 동기 및 목표

  • 정확성을 유지하면서 CNN 추론 비용을 줄이려는 동기.
  • 가지치된 필터가 업데이트될 수 있도록 허용하여 모델 용량을 유지하는 가지치기 방법을 개발한다.
  • 표준 학습에 가지치기를 통합하여 계층별 가지치기와 대규모 미세조정을 필요 없게 한다.
  • CNN 아키텍처와 대규모 데이터셋(CIFAR-10 및 ImageNet)에서의 효과를 입증한다.
  • SFP가 하드 가지치기보다 우수하고 처음부터 사용하거나 사전 학습 모델과 함께 동작할 수 있음을 보여준다.

제안 방법

  • 각 학습 에포크의 끝에서 Lp-노름(주로 L2)을 기반으로 필터를 가지치고 계층당 일정 비율 P의 필터를 선택한다.
  • 선정된 낮은 중요도의 필터를 0으로 설정하여 순전달 시 그 기여를 일시적으로 제거한다.
  • 제로화된 필터가 역전파를 통해 재구성(업데이트)될 수 있도록 학습을 계속하여 모델 용량을 유지한다.
  • 레이어별로가 아니라 모든 가중 계층을 동시에 가지치고, 계층 간에 단일 가지치기 비율 P를 사용한다.
  • 학습 수렴 후 제로화된 필터를 버리고 해당 입력/출력 채널 차원을 조정하여 컴팩트한 모델을 재구성한다.
  • 이론적 및 실험적 속도향상의 분석을 제공하고, 실제 이익은 하드웨어와 라이브러리에 따라 다름을 강조한다.

실험 결과

연구 질문

  • RQ1학습 중 필터의 소프트 가지치기가 하드 가지치기보다 더 높은 모델 용량을 유지할 수 있는가?
  • RQ2SFP를 사용할 때 처음부터 가지치기가 가능하고 사전 학습 모델의 가지치기와 경쟁력이 있는가?
  • RQ3계층 전반에 걸친 균일한 가지치기 비율의 정확도와 가속에 미치는 영향은 무엇인가?
  • RQ4SFP가 다양한 CNN 아키텍처와 데이터셧(CIFAR-10 및 ILSVRC-2012)에서 최첨단 가지치기 방법과 비교하여 어떤 성능을 보이나?

주요 결과

  • SFP는 의미 있는 가속을 달성한다(예: 특정 설정에서 ILSVRC-2012에서 최소 또는 양의 정확도 변화와 함께 ResNet-101에서 FLOPs가 최대 약 42% 감소).
  • 초기부터 가지치기를 수행할 때 소프트 가지치기가 기준선 대비 정확도를 유지하거나 향상시키고, 사전 학습 모델을 사용할 때도 성능을 맞추거나 능가할 수 있다.
  • 하드 필터 가지치기와 비교하여 SFP는 학습 중 더 높은 모델 용량을 유지하고 가지치기 이후 더 나은 정확도에 이른다.
  • 실험에서 L2-노름 기반 필터 선택이 가지치기 판단에 대해 L1-노름보다 약간 더 효율적이다.
  • 실제 추론 시간 기준의 현실적인 속도 향상은 상당하지만 IO 및 BLAS 효율성 차이로 이론적 FLOP 기반 속도향상과 다를 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.