Skip to main content
QUICK REVIEW

[논문 리뷰] Comparing Rewinding and Fine-tuning in Neural Network Pruning

Alex Renda, Jonathan Frankle|arXiv (Cornell University)|2020. 03. 05.
Neural Networks and Applications인용 수 179
한 줄 요약

이 논문은 가지치기 후 세 가지 재학습 기술—미세조정(fine-tuning), 가중치 리와인드(weight rewinding), 학습률 리와인딩(learning rate rewinding)—을 비교하고, 리와인딩 방법이 네트워크와 데이터셋 전반에서 미세조정보다 우수함을 보여주며, 학습률 리와인딩이 종종 최상 성능을 내고 간단하고 네트워크에 구애받지 않는 가지치기 알고리즘을 가능하게 한다.

ABSTRACT

Many neural network pruning algorithms proceed in three steps: train the network to completion, remove unwanted structure to compress the network, and retrain the remaining structure to recover lost accuracy. The standard retraining technique, fine-tuning, trains the unpruned weights from their final trained values using a small fixed learning rate. In this paper, we compare fine-tuning to alternative retraining techniques. Weight rewinding (as proposed by Frankle et al., (2019)), rewinds unpruned weights to their values from earlier in training and retrains them from there using the original training schedule. Learning rate rewinding (which we propose) trains the unpruned weights from their final values using the same learning rate schedule as weight rewinding. Both rewinding techniques outperform fine-tuning, forming the basis of a network-agnostic pruning algorithm that matches the accuracy and compression ratios of several more network-specific state-of-the-art techniques.

연구 동기 및 목표

  • 가지치기로 인해 매개변수를 제거한 후 정확도를 회복하기 위한 가지치기 방법을 동기 부여한다.
  • 세 가지 재학습 기법: 미세조정, 가중치 리와인딩, 학습률 리와인딩을 평가한다.
  • 압축 및 검색 비용을 고려할 때 어떤 재학습 접근법이 최상의 정확도를 낳는지 결정한다.
  • 정확도와 매개변수 수 사이의 최적의 거래를 달성하는 간단하고 네트워크-독립적인 가지치기 알고리즘을 제안한다.

제안 방법

  • 재학습 기법 정의: 미세조정은 고정된 작은 학습률로 최종 가중치를 사용한다.
  • 가중치 리와인드를 이전 훈련 지점으로 정의하고 그에 따라 학습률 스케줄을 되감는다.
  • 학습률 리와인딩을 최종 가중치를 유지하면서 마지막 t 에포크의 학습률 스케줄을 재사용하도록 정의한다.
  • 희소도를 얻기 위해 크기 기반 가지치기(global for unstructured, per-layer L1 for structured) 를 사용한다.
  • 여러 네트워크 및 데이터셋(CIFAR-10, ImageNet, WMT16 EN-DE)에 걸쳐 원샷 및 반복 가지치기를 평가한다.
  • 재학습 방법 간에 정확도, 매개변수 효율성, 검색 비용을 비교한다.

실험 결과

연구 질문

  • RQ1가지치기 후 재학습 방법으로써 가중치 리와인딩과 학습률 리와인딩이 미세조정보다 우수한가?
  • RQ2네트워크와 데이터셋에 걸쳐 재학습 방법이 정확도와 매개변수 효율성 측면에서 어떻게 비교되는가?
  • RQ3리와인딩에 기반한 네트워크-독립적 가지치기 알고리즘이 광범위한 하이퍼파라미터 검색 없이도 최상급의 거래를 달성할 수 있는가?
  • RQ4반복적 가지치기와 원샷 가지치기가 리와인딩 기술의 효과에 어떤 차이를 만드는가?

주요 결과

  • 가중치 리와인딩이 네트워크와 데이터셋 전반에서 미세조정을 능가한다.
  • 학습률 리와인딩이 모든 시나리오에서 가중치 리와인딩에 비해 같거나 우수하다.
  • 학습률 리와인딩은 반복적 비구조적 가지치기와 함께 상태-예술의 정확도 대 매개변수 효율성 거래를 달성한다.
  • 학습률 리와인딩으로 제시된 가지치기 알고리즘은 압축 비율당 하이퍼파라미터 없이도 상태-예술의 거래를 달성한다.
  • 가중치 리와인딩은 거의 최첨단 결과에 근접하여 로또-티켓 서브네트워크가 일반 가지치기 네트워크와 경쟁력이 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.