QUICK REVIEW

[논문 리뷰] Pruning Convolutional Neural Networks for Resource Efficient Transfer Learning.

Pavlo Molchanov, Stephen Tyree|arXiv (Cornell University)|2016. 11. 19.

Domain Adaptation and Few-Shot Learning인용 수 310

한 줄 요약

이 논문은 경량화된 전이 학습을 가능하게 하기 위해 타일러 기반의 프루닝 기준을 제안하며, 탐욕적 프루닝과 백프로파게이션 기반 미세조정을 교차 적용한다. 이는 3D 컨볼루션 네트워크에서 게임 인식 및 ImageNet, Flowers-102, Birds-200 데이터셋에서 정확도 손실이 최소화된 상태로 10배 이상 이론적(실제로는 5배)의 파라미터 감소를 달성하며, 기존의 노름 기반 및 활성도 기반 기준보다 뛰어난 성능을 보인다.

ABSTRACT

We propose a new formulation for pruning convolutional kernels in neural networks to enable efficient inference. We interleave greedy criteria-based pruning with fine-tuning by backpropagation - a computationally efficient procedure that maintains good generalization in the pruned network. We propose a new criterion based on Taylor expansion that approximates the change in the cost function induced by pruning network parameters. We focus on transfer learning, where large pretrained networks are adapted to specialized tasks. The proposed criterion demonstrates superior performance compared to other criteria, e.g. the norm of kernel weights or feature map activation, for pruning large CNNs after adaptation to fine-grained classification tasks (Birds-200 and Flowers-102) relaying only on the first order gradient information. We also show that pruning can lead to more than 10x theoretical (5x practical) reduction in adapted 3D-convolutional filters with a small drop in accuracy in a recurrent gesture classifier. Finally, we show results for the large-scale ImageNet dataset to emphasize the flexibility of our approach.

연구 동기 및 목표

큰 사전학습된 CNN을 사용할 때 발생하는 높은 계산 비용과 메모리 비용 문제를 해결한다.
모델 정확도를 유지하면서도 모델 크기를 크게 줄여 효율적인 추론을 가능하게 하는 프루닝 방법을 개발한다.
기존의 가중치 노름 또는 활성도 크기 기반 기준을 개선하기 위해 타일러 전개를 통해 일阶 도함수 정보를 활용한다.
2D 및 3D 컨볼루션 네트워크 모두에서 효과적인 프루닝을 가능하게 하며, 순환 게임 분류기 및 대규모 ImageNet 모델을 포함한다.
다양한 전이 학습 작업 및 네트워크 아키텍처에서 제안된 방법의 유연성과 확장성을 입증한다.

제안 방법

커널 제거로 인한 비용 함수의 변화를 근사하기 위해 타일러 전개 기반의 새로운 프루닝 기준을 제안한다.
일반화 능력을 유지하기 위해 탐욕적 커널 프루닝과 백프로파게이션 기반의 미세조정을 교차 적용한다.
두 번째 도함수 계산을 피하기 위해 첫 번째 도함수 정보(즉, 기울기 크기)만을 사용하여 타일러 기반 기준을 계산한다.
성능을 유지하면서 덜 중요한 필터를 점진적으로 제거하기 위해 프루닝 및 미세조정 절차를 반복 적용한다.
세분화된 이미지 분류와 같은 특수 작업을 위해 사전학습된 대규모 네트워크를 미세조정하는 전이 학습 시나리오에 집중한다.
영상 또는 순차적 데이터를 위한 3D 컨볼루션 네트워크로 이 방법을 확장하여 확장성과 효율성 향상을 입증한다.

실험 결과

연구 질문

RQ11차 타일러 기반 기준이 전이 학습에서 기존의 가중치 노름 또는 활성도 크기 기준보다 우수한가?
RQ2정확도 저하 없이 3D 컨볼루션 네트워크에서 순차적 데이터에 대해 얼마나 많은 모델 크기 감소를 달성할 수 있는가?
RQ3미세조정 후 ImageNet과 같은 대규모 벤치마크에 적용했을 때 제안된 프루닝 방법의 효과는 어떠한가?
RQ4백프로파게이션 기반의 미세조정과 함께 프루닝을 교차 적용하면 정적 프루닝보다 일반화 능력을 더 잘 유지하는가?
RQ5다양한 전이 학습 작업에서 파라미터 수를 크게 압축(예: 10배)하면서도 높은 정확도를 유지할 수 있는가?

주요 결과

제안된 타일러 기반 프루닝 기준은 Birds-200 및 Flowers-102 데이터셋에서 사전학습된 대규모 CNN을 미세조정한 후, 기존의 가중치 노름 및 활성도 기반 기준보다 뛰어난 성능을 보였다.
이 방법은 순환 게임 분류기의 3D 컨볼루션 필터에서 이론적으로는 10배 이상, 실질적으로는 5배 이상의 파라미터 감소를 달성하며 정확도 손실은 최소한으로 유지했다.
대규모 ImageNet 데이터셋에서도 강력한 성능을 유지하여 다양한 아키텍처와 작업 간의 유연성과 확장성을 입증했다.
타일러 전개를 통한 첫 번째 도함수 정보 기반 프루닝은 계산 비용이 저렴하면서도 경쟁 가능한 정확도를 달성했다.
교차 적용된 프루닝 및 미세조정 절차는 모델 일반화 능력을 효과적으로 유지하여 공격적인 압축 후에도 높은 정확도의 모델을 가능하게 했다.
결과적으로 이 방법은 세분화된 분류 및 영상 기반 순차 모델링을 포함한 다양한 전이 학습 시나리오에서 효과적임을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.