Skip to main content
QUICK REVIEW

[논문 리뷰] Pruning Convolutional Neural Networks for Resource Efficient Inference

Pavlo Molchanov, Stephen Tyree|arXiv (Cornell University)|2016. 11. 19.
Domain Adaptation and Few-Shot Learning참고 문헌 23인용 수 1,204
한 줄 요약

이 논문은 컨볼루션 커널에 대한 Taylor 확장 기반 가지치기 기준을 도입하고, 가지치기와 미세조정을 교대로 수행하여 자원 효율적인 CNN을 생성하며, 전이 학습 태스크와 대규모 ImageNet에서 상당한 FLOPs 감축과 소폭의 정확도 손실로 검증됩니다.

ABSTRACT

We propose a new formulation for pruning convolutional kernels in neural networks to enable efficient inference. We interleave greedy criteria-based pruning with fine-tuning by backpropagation - a computationally efficient procedure that maintains good generalization in the pruned network. We propose a new criterion based on Taylor expansion that approximates the change in the cost function induced by pruning network parameters. We focus on transfer learning, where large pretrained networks are adapted to specialized tasks. The proposed criterion demonstrates superior performance compared to other criteria, e.g. the norm of kernel weights or feature map activation, for pruning large CNNs after adaptation to fine-grained classification tasks (Birds-200 and Flowers-102) relaying only on the first order gradient information. We also show that pruning can lead to more than 10x theoretical (5x practical) reduction in adapted 3D-convolutional filters with a small drop in accuracy in a recurrent gesture classifier. Finally, we show results for the large-scale ImageNet dataset to emphasize the flexibility of our approach.

연구 동기 및 목표

  • 전이 학습 설정에서 특징 맵의 구조적 가지치기를 통해 CNN의 추론 비용을 줄이는 동기를 제시한다.
  • 가지치기에 앞서 필요한 최소 특징 맵을 식별하기 위한 빠르고 그래디언트 기반의 민감도 기준을 제안한다.
  • 가치 하락(loss)을 줄이면서도 FLOPs와 메모리 사용을 감소시키기 위해 가지치기를 미세조정과 교대로 수행하는 것이 일반화 성능을 유지한다는 것을 보인다.
  • 대규모 네트워크와 데이터셋(이미지Net 포함)에 대한 확장성 및 실제 속도 개선을 시연한다.

제안 방법

  • 가지치기를 매 단에서를 정해진 게이트를 통해 0으로 설정하는 특징 맵에 대한 반복적, 탐욕적 프로세스로 정의한다.
  • 손실 변화의 근사를 제공하는 Taylor expansion 기반 가지치기(Taylor criterion) 등을 포함한 민감도 기준을 도입한다.
  • 가중치 크기, 활성화, 상호 정보량, Optimal Brain Damage(OBD) 등 대안들과 Taylor 기준을 비교한다.
  • 전층에 걸친 기준의 정규화를 통해 전역 가지치기 의사결정을 가능하게 한다.
  • 계산 비용이 낮은 방향으로 가지치기를 유도하기 위해 FLOPs 정규화(정규화)도 선택적으로 적용한다.
  • 역전파 기반 미세조정과 가지치기를 교대로 수행하여 정확도를 유지할 수 있음을 입증한다.

실험 결과

연구 질문

  • RQ1네트워크 규모와 FLOPs를 줄이면서 손실 변화를 최소화하도록 가지치기 의사결정을 효율적으로 내릴 수 있는가?
  • RQ2Taylor 확장 기반의 민감도 측정이 CNN 특징 맵의 가지치기에 대해 다른 기준보다 우수한가, 특히 전이 학습에서?
  • RQ3미세조정과 가지치기를 교대로 하는 것이 다수 데이터셋과 아키텍처에서 정확도와 속도에 어떤 영향을 미치는가?
  • RQ4FLOPs를 고려한 가지치기가 다양한 플랫폼에서 의미 있는 하드웨어 속도 향상을 제공하는가?

주요 결과

  • Taylor 확장 기반 민감도 기준(Taylor criterion)은 오라클과의 상관관계가 더 높고 다른 기준보다 가지치기 성능이 우수하다.
  • 가지치기 기준의 계층별 정규화는 층 간 일관성과 글로벌 가지치기 효과를 향상시킨다.
  • Taylor 기준으로 반복적 가지치기는 정확도를 보존하면서 FLOPs를 크게 줄이며 전이 학습 태스크에서 대안들보다 뛰어난 성능을 보인다.
  • 제스처 인식을 위한 3D-CNN 가지치기는 미세조정 후 약 2.5%의 정확도 손실로 약 12.6x GFLOPs 감소를 달성한다.
  • ImageNet 규모의 네트워크에서 Taylor 기반 가지치기와 충분한 미세조정은 가시적 속도 향상과 가지치기 후의 경쟁력 있는 top-5 정확도를 제공한다.
  • CPU 및 GPU 환경을 포함한 여러 하드웨어 설정에서 실용적 속도 향상이 입증된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.