Skip to main content
QUICK REVIEW

[논문 리뷰] The Break-Even Point on Optimization Trajectories of Deep Neural Networks

Stanisław Jastrzȩbski, Maciej Szymczak|arXiv (Cornell University)|2020. 02. 21.
Stochastic Gradient Optimization Techniques참고 문헌 37인용 수 33
한 줄 요약

논문은 초기 학습 단계에서의 SGD 하이퍼파라미터가 암시적으로 손실 표면의 곡률과 그래디언트 노이즈를 규제하는 손익점(break-even point)을 만들어 전체 최적화 궤적과 잠재적 일반화에 영향을 미친다는 점을 조사한다.

ABSTRACT

The early phase of training of deep neural networks is critical for their final performance. In this work, we study how the hyperparameters of stochastic gradient descent (SGD) used in the early phase of training affect the rest of the optimization trajectory. We argue for the existence of the "break-even" point on this trajectory, beyond which the curvature of the loss surface and noise in the gradient are implicitly regularized by SGD. In particular, we demonstrate on multiple classification tasks that using a large learning rate in the initial phase of training reduces the variance of the gradient, and improves the conditioning of the covariance of gradients. These effects are beneficial from the optimization perspective and become visible after the break-even point. Complementing prior work, we also show that using a low learning rate results in bad conditioning of the loss surface even for a neural network with batch normalization layers. In short, our work shows that key properties of the loss surface are strongly influenced by SGD in the early phase of training. We argue that studying the impact of the identified effects on generalization is a promising future direction.

연구 동기 및 목표

  • 딥 네트워크에서 초기 학습 단계를 최종 성능에 결정적으로 중요하다는 연구 동기를 제시한다.
  • SGD가 곡률과 그래디언트 노이즈를 안정시키는 최적화 궤적상의 break-even point를 정의하고 식별한다.
  • 초기 학습률과 배치 크기가 궤적 전체에 걸친 그래디언트 공분산과 해시안 조건화에 어떤 영향을 미치는지 가설한다.
  • 여러 아키텍처와 데이터셋에 걸친 분산 감소 및 프리-컨디셔닝 효과의 실증 증거를 제시한다.
  • Batch normalization을 사용하는 네트워크에 대한 분석을 확장하여 결과의 강건성을 평가한다.

제안 방법

  • 초기 주어진 손실 면을 상위 해시안 방향이 지배하고 상위 해시안과 그래디언트-공분산의 고유벡터 간의 정렬이 존재한다고 가정하여 모델링한다.
  • break-even point를 상위 해시안 방향에서 안정성 조건이 위반되는 첫 번째 SGD 스텝으로 정의한다.
  • 더 큰 초기 학습률이나 더 작은 배치 크기가 궤적에 걸친 그래디언트 공분산 및 해시안의 최대 스펙트럴 노름을 감소시킬 것이라고 추정한다.
  • 초기 학습 중 해시안의 스펙트럴 노름과 비 중심화된 그래디언트 공분산의 스펙트럴 노름을 계산・분석하여 가설을 검증한다.
  • BN 포함 및 비-BN 네트워크를 포함한 다중 아키텍처와 데이터셋에서 가설을 실증적으로 평가하고 MNLI의 BERT, ImageNet의 DenseNet과 같은 대규모 작업에서도 평가한다.

실험 결과

연구 질문

  • RQ1SGD 초기 학습 단계가 break-even point를 통해 이후의 최적화 궤적을 결정하는가?
  • RQ2초기 SGD 하이퍼파라미터(학습률, 배치 크기)가 궤적에 따라 그래디언트 공분산 및 해시안의 스펙트럴 노름과 조건화에 어떤 영향을 미치는가?
  • RQ3제안된 효과가 배치 정규화가 있는 네트워크와 대규모 모델에서도 지속되는가?
  • RQ4더 큰 초기 학습률이 break-even point 이후의 손실 표면의 더 잘 조건화된 영역으로 이어질 수 있는가?
  • RQ5break-even 다이나믹스와 잠재적 일반화 향상 사이의 관계는 무엇인가?

주요 결과

  • 가장 곡률이 큰 손실 방향을 따라 SGD 동역학이 불안정해지는 break-even point가 존재하며, 그 후 궤적은 조건화가 더 나은 영역과 정렬된다.
  • 더 큰 초기 학습률이나 더 작은 배치 크기는 학습 중에 얻은 그래디언트 공분산 및 해시안의 최대 스펙트럴 노름을 감소시켜 분산 감소 및 프리-컨디셔닝 효과를 나타낸다.
  • 더 큰 학습률과 더 작은 배치는 K 및 H의 최소 비제로 고유값과 최고 고유값의 비를 커지게 하여 조건화의 개선을 시사한다.
  • 배치 정규화를 사용하는 네트워크도 여전히 break-even 동작이 관찰되며, 비-BN 네트워크에 비해 개선된 조건화를 달성하려면 더 높은 학습률이 필요하다.
  • SimpleCNN, ResNet-32, LSTM, BERT, DenseNet 및 MNLI와 ImageNet 실험 등 대규모 규모에서도 분산 감소 및 프리-컨디셔닝 효과가 관찰된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.