Skip to main content
QUICK REVIEW

[논문 리뷰] A Walk with SGD.

Xing Chen, Devansh Arpit|arXiv (Cornell University)|2018. 02. 24.
Stochastic Gradient Optimization Techniques참고 문헌 38인용 수 49
한 줄 요약

이 논문은 오버파ram터화된 DNN에서 SGD가 큰 학습률과 작은 배치 크기를 통해 계곡 바닥 위의 높이에서 '계곡 벽 사이를 튀기듯' 이동함으로써 손실 곡면을 탐색함을 드러낸다. 이 메커니즘은 국소 장벽을 피하고 더 평탄하고 일반화 능력이 뛰어난 영역으로 수렴하는 데에 효율적인 탐색을 가능하게 한다.

ABSTRACT

We present novel empirical observations regarding how stochastic gradient descent (SGD) navigates the loss landscape of over-parametrized deep neural networks (DNNs). These observations expose the qualitatively different roles of learning rate and batch-size in DNN optimization and generalization. Specifically we study the DNN loss surface along the trajectory of SGD by interpolating the loss surface between parameters from consecutive extit{iterations} and tracking various metrics during training. We find that the loss interpolation between parameters before and after each training iteration's update is roughly convex with a minimum ( extit{valley floor}) in between for most of the training. Based on this and other metrics, we deduce that for most of the training update steps, SGD moves in valley like regions of the loss surface by jumping from one valley wall to another at a height above the valley floor. This 'bouncing between walls at a height' mechanism helps SGD traverse larger distance for small batch sizes and large learning rates which we find play qualitatively different roles in the dynamics. While a large learning rate maintains a large height from the valley floor, a small batch size injects noise facilitating exploration. We find this mechanism is crucial for generalization because the valley floor has barriers and this exploration above the valley floor allows SGD to quickly travel far away from the initialization point (without being affected by barriers) and find flatter regions, corresponding to better generalization.

연구 동기 및 목표

  • 오버파라미터화된 딥 네트워크의 손실 곡면을 탐색하는 동안 SGD의 동적 거동을 이해한다.
  • 학습률과 배치 크기가 최적화 및 일반화에 미치는 상이한 역할을 조사한다.
  • 학습 중에 계곡 바닥 위에서 작동함으로써 SGD가 국소 최소값과 장벽을 어떻게 피하는지 밝힌다.
  • 이 튀기기 메커니즘이 손실 곡면의 더 평탄한 영역으로의 빠른 수렴을 어떻게 가속화하는지 설명한다.
  • 기존 최적화 이론을 초월하는 딥 러닝의 일반화를 뒷받침하는 새로운 메커니즘에 대한 경험적 증거를 제공한다.

제안 방법

  • 연속된 SGD 학습 반복에서의 모델 파라미터 사이의 손실 곡면을 보간하여 궤적을 시각화한다.
  • 보간 경로를 따라 손실, 초기화로부터의 거리, 곡률 등의 지표를 추적한다.
  • 보간된 손실 경로의 형태를 분석하여 파라미터 갱신 사이에 최소값(계곡 바닥)이 있는 볼록 유사 영역을 식별한다.
  • SGD 갱신의 높이를 계곡 바닥에 비해 특성화하여 '튀기기' 행동을 정량화한다.
  • 학습률과 배치 크기와의 상관관계를 통해 튀김 높이와 계곡 바닥 위의 탐색 범위를 분석한다.
  • 경험적 관찰을 바탕으로 계곡 바닥 위의 탐색이 더 빠른 이동과 국소 장벽 탈출을 가능하게 한다고 유추한다.

실험 결과

연구 질문

  • RQ1SGD는 오버파라미터화된 DNN의 손실 곡면을 학습 도중 어떻게 탐색하는가?
  • RQ2학습률과 배치 크기가 SGD의 궤적을 형성하는 데 기여하는 기능적 역할은 무엇인가?
  • RQ3왜 SGD는 날카로운 최소값으로 수렴하지 않더라도 잘 일반화되는가?
  • RQ4연속된 SGD 갱신 사이의 손실 곡면은 어떻게 행동하는가? 이는 최적화 역학에 대해 무엇을 드러내는가?
  • RQ5계곡 바닥 위에서 작동함으로써 SGD가 국소 장벽을 어떻게 탈출하고 더 평탄하고 일반화 능력이 뛰어난 영역을 찾는가?

주요 결과

  • 연속된 SGD 파라미터 사이의 손실 보간은 일반적으로 최소값(계곡 바닥)이 있는 볼록 유사 구조를 보이며, 이는 손실 곡면에 계곡 구조가 존재함을 시사한다.
  • SGD는 계곡 바닥을 따라 움직이기보다는 계곡 벽 사이를 바닥 위의 높이에서 튀기듯이 이동함으로써 '튀기기' 운동을 수행한다.
  • 큰 학습률은 높은 튀김 높이를 유지함으로써 더 큰 효과적인 단계를 가능하게 하여 손실 곡면을 더 빠르게 이동한다.
  • 작은 배치 크기는 노이즈를 유도하여 계곡 바닥 위의 탐색을 촉진함으로써 국소 장벽 탈출에 기여한다.
  • 이 튀기기 메커니즘은 국소 장벽에 막히지 않고 초기화 지점에서 멀리 떨어진 곳으로 신속히 이동하는 데에 기여한다.
  • 계곡 바닥 위의 탐색 능력은 더 평탄한 손실 곡면 영역을 찾는 데에 기여하며, 이러한 영역는 더 나은 일반화와 관련이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.