QUICK REVIEW

[논문 리뷰] Progressive Skeletonization: Trimming more fat from a network at initialization

Pau de Jorge, Amartya Sanyal|arXiv (Cornell University)|2020. 06. 16.

Advanced Neural Network Applications참고 문헌 33인용 수 40

한 줄 요약

본 논문은 FORCE와 두 가지 점진적 가지치기 스킴(Iterative SNIP 및 FORCE)을 초기화 시점에 가지치기에 도입하여, 트레이닝 가능성을 유지하면서 매우 높은 희소성을 달성하고 종종 SNIP/GRASP를 능가한다는 것을 보여준다. 특히 극단적 희소성에서 탁월한 성능을 보인다. 일부 설정에서 매개변수의 최대 99.5%까지 가지치기가 가능하다는 것을 보여준다.

ABSTRACT

Recent studies have shown that skeletonization (pruning parameters) of networks extit{at initialization} provides all the practical benefits of sparsity both at inference and training time, while only marginally degrading their performance. However, we observe that beyond a certain level of sparsity (approx $95\%$), these approaches fail to preserve the network performance, and to our surprise, in many cases perform even worse than trivial random pruning. To this end, we propose an objective to find a skeletonized network with maximum {\em foresight connection sensitivity} (FORCE) whereby the trainability, in terms of connection sensitivity, of a pruned network is taken into consideration. We then propose two approximate procedures to maximize our objective (1) Iterative SNIP: allows parameters that were unimportant at earlier stages of skeletonization to become important at later stages; and (2) FORCE: iterative process that allows exploration by allowing already pruned parameters to resurrect at later stages of skeletonization. Empirical analyses on a large suite of experiments show that our approach, while providing at least as good a performance as other recent approaches on moderate pruning levels, provides remarkably improved performance on higher pruning levels (could remove up to $99.5\%$ parameters while keeping the networks trainable). Code can be found in https://github.com/naver/force.

연구 동기 및 목표

비용이 큰 조밀한 학습 없이 훈련 시간과 추론 시간의 희소성 이점을 얻기 위해 초기화 시 가지치기를 유도한다.
포스트 가지치기 가시성(post-pruning trainability)을 포착하는 가시성 기준으로 FORCE를 도입한다.
FORCE를 최대화하기 위한 두 가지 점진적 가지치기 절차(Iterative SNIP 및 FORCE)를 제안한다.
데이터셋과 아키텍처 전반에 걸친 강건성과 효과를 보여주며, 매우 높은 희소성 수준을 포함한다.

제안 방법

가지치기 후의 가시성으로 FORCE를 정의: g(θ̄) = ∂L(θ̄)/∂c 를 c = ĉ에서 평가한 값으로, 이는 (∂L(θ̄)/∂θ̄) ∘ θ (Eq. 5) 와 같다.
FORCE 목적함수를 형식화: maxc S(θ, c) = sum_{i in supp(c)} |θ_i ∂L(θ ∘ c)/∂(θ ∘ c)| (Eq. 6).
Iterative SNIP를 제안: 이전에 유지했던 연결(c_t)을 유지하면서 가지치기를 진행하며 pruned-SNIP 목표를 해결한다.
FORCE 제안: 가지치기를 점진적으로 수행하되 잘려진 가중치가 되살아날 수 있도록 하여, 희소화된 네트워크에서 FORCE 가시성을 다시 계산하며 진행한다.
SNIP 및 GRASP와 비교: SNIP/GRASP는 가지치기 이전의 가시성에 의존하며 높은 희소성에서 실패할 수 있는 반면, FORCE는 가지치기 이후의 가시성을 최적화한다.
가지치기 단계를 제어하기 위해 지수적 희소성 스케줄 k_t를 사용한다( Eq. 8 ).
작은 가지치기 단계에서 Iterative SNIP의 중간 마스크가 로컬 미니마를 근사한다는 이론적 통찰을 제공한다.

실험 결과

연구 질문

RQ1초기화 시 가지치기가 extreme sparsity 수준에서 트레이너블한 하위 네트워크를 낳을 수 있는가(예: >95%)?
RQ2FORCE를 최대화하면 희소성이 증가함에 따라 가지치기 결정의 전달이 더 잘 이루어지는가?
RQ3Iterative SNIP 및 FORCE 같은 반복 가지치기 전략이 한 번에 수행하는 가시성 방법(SNIP/GRASP)보다 특히 높은 희소성에서 더 뛰어난가?
RQ4FORCE(탐색)와 Iterative SNIP(활용) 간의 트레이너블한 희소 네트워크를 찾는 데 있어 탐색-활용 사이의 균형은 어떤가?

주요 결과

FORCE 및 Iterative SNIP는 CIFAR-10, CIFAR-100, Tiny ImageNet, ImageNet 전반에서 높은 희소성에서도 SNIP 및 GRASP를 상당히 능가한다.
CIFAR-10에서 ResNet50 및 VGG19의 경우, 극단적 희소성(최대 99.9%)에서도 트레이너블한 네트워크와 무작위 대비 높은 정확도를 보이며, FORCE가 대안들보다 현저히 높은 정확도를 달성한다.
ImageNet에서 VGG19의 90% 희소성(Top-1 70.2, Top-5 89.5) 및 95% 희소성(Top-1 65.8, Top-5 86.8)으로 최대 90%의 가지치기를 수행하고, ResNet50에서 90% 희소성의 Top-1 64.9 및 Top-5 86.5(95% 희소성: Top-1 59.0, Top-5 82.3)을 달성한다.
FORCE는 일부 아키텍처에서 매개변수의 99.5%까지 가지치기할 수 있으면서도 네트워크를 트레이너블하게 유지한다. 이는 이전 방법이 저하되거나 무작위 가지치기에 비해 떨어지는 수준의 희소성이다.
Iterative SNIP는 일반적으로 강건하고 충분한 반복으로 FORCE 성능에 근접할 수 있지만, 이전에 가지치기된 가중치의 복원을 허용하는 FORCE가 탐색 측면에서 더 나은 결과를 내는 경우가 많다.
가지치기 비용 및 효율성: FORCE/Iter SNIP는 GRASP-MB보다 저렴하고, Hessian 기반 GRASP에 비해 계산 오버헤드가 적으면서 경쟁력 있는 또는 우수한 정확도를 달성할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.