Skip to main content
QUICK REVIEW

[논문 리뷰] Picking Winning Tickets Before Training by Preserving Gradient Flow

Chaoqi Wang, Guodong Zhang|arXiv (Cornell University)|2020. 02. 18.
Advanced Neural Network Applications참고 문헌 37인용 수 148
한 줄 요약

GraSP는 초기화 시점에 그래디언트 흐름을 보존하여 신경망을 가지치기하고, 최소한의 정확도 손실로 ImageNet에서 최대 80%의 가중치 가지치기를 가능하게 한다.

ABSTRACT

Overparameterization has been shown to benefit both the optimization and generalization of neural networks, but large networks are resource hungry at both training and test time. Network pruning can reduce test-time resource requirements, but is typically applied to trained networks and therefore cannot avoid the expensive training process. We aim to prune networks at initialization, thereby saving resources at training time as well. Specifically, we argue that efficient training requires preserving the gradient flow through the network. This leads to a simple but effective pruning criterion we term Gradient Signal Preservation (GraSP). We empirically investigate the effectiveness of the proposed method with extensive experiments on CIFAR-10, CIFAR-100, Tiny-ImageNet and ImageNet, using VGGNet and ResNet architectures. Our method can prune 80% of the weights of a VGG-16 network on ImageNet at initialization, with only a 1.6% drop in top-1 accuracy. Moreover, our method achieves significantly better performance than the baseline at extreme sparsity levels.

연구 동기 및 목표

  • 학습 자원을 절약하기 위해 학습 전에 가지치기를 동기 부여한다.
  • 상호 가중치 의존성을 고려하는 그래디언트 흐름 기반 가지치기 기준을 제시한다.
  • VGGNet 및 ResNet 아키텍처를 사용하여 CIFAR, Tiny-ImageNet 및 ImageNet에서 효과를 입증한다.
  • 가지치기가 학습 다이나믹스에 미치는 영향을 분석하고 그 결과를 Neural Tangent Kernel과 연결한다.

제안 방법

  • 가지치기 기준으로 Gradient Signal Preservation (GraSP)을 도입한다.
  • 가중치를 가지치기할 때 그래디언트 흐름에 미치는 영향을 평가하기 위해 해시안-그래디언트 곱을 계산한다.
  • S(-θ) = -θ ⊙ (H g)로 가중치를 점수화하고 점수가 가장 낮은 상위 p 비율의 가중치를 가지치기한다.
  • 초기화에서부터 결과로 얻은 희소 네트워크를 학습시키고 성능을 평가한다.
  • NTK 통찰을 활용하여 가지치기 효과를 최적화 다이나믹스와 연결한다.

실험 결과

연구 질문

  • RQ1전체 밀집 모델을 학습하지 않고 초기화에서 네트워크를 효과적으로 가지치기할 수 있는가?
  • RQ2높은 희소도에서 가지치기 중 그래디언트 흐름을 보존하는 것이 학습 가능성과 최종 정확도를 향상시키는가?
  • RQ3GraSP가 현대 아키텍처와 데이터셋에서 SNIP 및 다른 비교 기준과 어떻게 비교되는가?
  • RQ4GraSP 성능에서 초기화와 배치 크기의 역할은 무엇인가?

주요 결과

  • GraSP는 ImageNet에서 초기화 시점에 VGG-16 가중치의 최대 80%를 가지치기할 수 있으며 상위-1 정확도는 1.6% 감소만으로 가능하다.
  • GraSP는 CIFAR-10/100, Tiny-ImageNet, 그리고 ImageNet에서 극도 희소성에서도 SNIP보다 일관되게 우수하다.
  • GraSP는 임의 가지치기보다 그래디언트 흐름 유지가 더 우수하고 종종 late-reset lottery tickets와 일부 DST baselines에 근접하거나 이를 능가한다.
  • GraSP로 가지치기된 네트워크는 학습 중 손실 감소가 더 빠르고 높은 희소도에서 그래디언트 노름이 더 좋다.
  • GraSP는 NTK 기반 예측과 일치하며 효율적인 최적화를 위해 출력 공간 기울기의 분산이 큰 방향을 유지하도록 한다.
  • GraSP는 Kaiming과 같은 일반적인 초기화에서 특히 다양한 초기화 및 배치 크기에 대해 견고함을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.