Skip to main content
QUICK REVIEW

[논문 리뷰] On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima

Nitish Shirish Keskar, Dheevatsa Mudigere|arXiv (Cornell University)|2016. 09. 15.
Stochastic Gradient Optimization Techniques참고 문헌 34인용 수 577
한 줄 요약

이 논문은 대 배치 SGD가 예민한(샤프) 최소점으로 수렴하는 경향이 있어 일반화 격차를 야기하는 반면, 소배치 방법은 더 완만한 최소점을 찾고, 그래디언트 노이즈가 대 배치 방법의 탐색을 돕고 격차를 줄일 수 있다.

ABSTRACT

The stochastic gradient descent (SGD) method and its variants are algorithms of choice for many Deep Learning tasks. These methods operate in a small-batch regime wherein a fraction of the training data, say $32$-$512$ data points, is sampled to compute an approximation to the gradient. It has been observed in practice that when using a larger batch there is a degradation in the quality of the model, as measured by its ability to generalize. We investigate the cause for this generalization drop in the large-batch regime and present numerical evidence that supports the view that large-batch methods tend to converge to sharp minimizers of the training and testing functions - and as is well known, sharp minima lead to poorer generalization. In contrast, small-batch methods consistently converge to flat minimizers, and our experiments support a commonly held view that this is due to the inherent noise in the gradient estimation. We discuss several strategies to attempt to help large-batch methods eliminate this generalization gap.

연구 동기 및 목표

  • 대형 미니배치를 사용하는 SGD에서 관찰되는 일반화 격차를 동기 부여하고 정량화한다.
  • 대형 배치 방법이 예민한 최소점으로 수렴하는지와 이것이 일반화 저하와 어떤 관련이 있는지 조사한다.
  • 소배치와 대배치 훈련이 여러 네트워크 아키텍처에 걸쳐 찾은 최소점들을 비교한다.
  • 대형 배치 학습의 일반화 저하를 개선하면서도 일반화를 해치지 않는 잠재적 해결책과 실용적 통찰을 제공한다.

제안 방법

  • SB 및 LB 학습 규칙을 정의하고 ADAM을 사용해 여섯 가지 네트워크/데이터셋 구성에서 그 동작을 비교한다.
  • 국부 이웃에서의 섭동을 기반으로 한 샤프니스/민감도 지표를 사용해 최소점을 특성화한다.
  • SB와 LB 해답 사이의 직선에서의 매개변수화된 플롯을 통해 최소점의 샤프니스를 시각화한다.
  • SB 탐색이 LB 결과에 영향을 미칠 수 있는지 테스트하기 위한 예열 시작(warm-start) 실험을 수행한다.
  • 일부 네트워크에서 일반화 및 샤프니스에 미치는 영향과 함께 배치 크기 임계치를 분석한다.

실험 결과

연구 질문

  • RQ1대형 배치 학습이 일반화 저하를 초래하는 샤프한 최소점으로 이어지는가?
  • RQ2SB와 LB 최소점이 샤프니스 및 로컬 지형 구조 측면에서 어떻게 다른가?
  • RQ3SB 훈련의 그래디언트 노이즈가 LB 방법이 샤프한 웅덩이를 벗어나 일반화를 개선하는 데 도움이 되는가?
  • RQ4LB 학습과 관련된 일반화 하락을 완화할 수 있는 실제 전략은 무엇인가?

주요 결과

  • LB 방법은 큰 양의 해석 가능한 Hessian 고유값과 일반화 저하가 특징인 예민한 최소점으로 수렴한다.
  • SB 방법은 더 많은 작은 고유값을 가지는 더 완만한 최소점으로 수렴하고 일반화가 더 좋다.
  • 매개변수화 및 부분공간 샤프니스 분석은 LB 최소점이 여러 네트워크에서 SB 최소점에 비해 현저히 더 샤프하다는 것을 보여준다.
  • WB(웜 스타트) 실험은 충분한 SB 탐색 후 LB를 시작하면 LB도 평평한 최소점에 도달하게 할 수 있음을 시사한다.
  • 여러 네트워크에서 LB의 테스트 정확도가 임계 배치 크기를 넘으면 악화되는 경향이 존재한다.
  • 데이터 증강 및 적대적 학습과 같은 대책이 LB 일반화를 다소 개선하지만 샤프한 최소점을 완전히 없애지는 못한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.