Skip to main content
QUICK REVIEW

[논문 리뷰] FreezeOut: Accelerate Training by Progressively Freezing Layers

Andrew Brock, Theodore Lim|arXiv (Cornell University)|2017. 06. 15.
Advanced Neural Network Applications참고 문헌 11인용 수 75
한 줄 요약

FreezeOut은 은닉층을 점진적으로 고정하고 역전파에서 제외함으로써 신경망 학습을 가속화하며, 일부 아키텍처에서 최소한의 정확도 손실로 최대 20%의 wall-clock 시간 가속을 달성합니다.

ABSTRACT

The early layers of a deep neural net have the fewest parameters, but take up the most computation. In this extended abstract, we propose to only train the hidden layers for a set portion of the training run, freezing them out one-by-one and excluding them from the backward pass. Through experiments on CIFAR, we empirically demonstrate that FreezeOut yields savings of up to 20% wall-clock time during training with 3% loss in accuracy for DenseNets, a 20% speedup without loss of accuracy for ResNets, and no improvement for VGG networks. Our code is publicly available at https://github.com/ajbrock/FreezeOut

연구 동기 및 목표

  • 일찍 수렴하고 파라미터 수가 적은 층을 활용하여 학습 시간을 줄이는 것을 동기 부여한다.
  • 학습 중 층을 점진적으로 고정하는 계층별 학습률 스케줄을 제안한다.
  • DenseNets, Wide ResNets, VGG 전반에 걸쳐 방법을 평가하여 어디에서 속도 향상을 얻고 어디에서 그렇지 않은지 식별한다.
  • 일반적인 CNN 아키텍처에서 FreezeOut를 적용하기 위한 실용적인 기본값과 지침을 제공한다.

제안 방법

  • 레이어별 스케줄에서 재시작 없이 코사인 어닐링 학습률을 적용한다.
  • 처음 레이어를 시점 t0에서 고정하고 이후 레이어들을 점진적으로 시점 ti에서 고정한다.
  • 선택적으로 각 레이어의 초기 학습률을 스케일링하고 ti 값을 세제곱하여 후방의 레이어를 편향한다.
  • ai(t)=0.5*ai(0)*(1+cos(pi*t/ti)) 로 계층별 학습률 스케줄을 계산한다.
  • 학습률이 0으로 감소하면 해당 레이어를 역전파에서 제외하여 한 반복당 비용을 낮춘다.
  • 네 가지 스케줄링 변형을 제공한다: ti 진행의 선형 대 큐빅, 스케일링된 대 비스케일링된 학습률, 그리고 권장 기본 구성을 제시한다.

실험 결과

연구 질문

  • RQ1일련의 층 고정을 점진적으로 수행하는 것이 일반적인 CNN 아키텍처에서 학습 시간을 줄이면서도 과도한 정확도 손실 없이 가능한가?
  • RQ2속도 향상과 정확도 사이의 최적 트레이드오프를 제공하는 스케줄링 변형은 어느 것인가(선형/큐빅, 스케일링 여부)?
  • RQ3스킵 연결이 있는 여부에 따라 DenseNets/ResNets vs VGG 등의 아키텍처에서 FreezeOut의 성능은 어떠한가?

주요 결과

  • 테스트된 네트워크 전반에서 최대 20%의 wall-clock 시간 가속.
  • DenseNets은 일부 구성을 통해 FreezeOut 사용 시 테스트 오차가 최대 약 3% 증가하는 것을 보였다.
  • ResNets은 일부 설정에서 정확도 손실 없이 약 20% 속도 향상을 달성했다.
  • VGG 네트워크는 FreezeOut으로부터 개선이 나타나지 않았다.
  • 학습률 스케일링이 있는 세제곱 스케줄링은 약 3%의 정확도 손실 범위에서 속도를 극대화하는 데 권장된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.