Skip to main content
QUICK REVIEW

[논문 리뷰] Gradient Descent Happens in a Tiny Subspace

Guy Gur-Ari, Daniel A. Roberts|arXiv (Cornell University)|2018. 12. 12.
Stochastic Gradient Optimization Techniques참고 문헌 14인용 수 110
한 줄 요약

훈련 중 그래디언트는 상 Hessian 부분공간(차원은 클래스 수)에서 집중하며 이 부분공간은 거의 고정된 채 남아 있어 그래디언트 하강이 사실상 작고 진화하는 부분공간에서 작동한다는 것을 시사한다.

ABSTRACT

We show that in a variety of large-scale deep learning scenarios the gradient dynamically converges to a very small subspace after a short period of training. The subspace is spanned by a few top eigenvectors of the Hessian (equal to the number of classes in the dataset), and is mostly preserved over long periods of training. A simple argument then suggests that gradient descent may happen mostly in this subspace. We give an example of this effect in a solvable model of classification, and we comment on possible implications for optimization and learning.

연구 동기 및 목표

  • 대규모 과초적 매개변수 모델에서 SGD 중 그래디언트와 Hessian 스펙트럼의 동작을 조사한다.
  • 최상위와 벌크로 Hessian의 부분공간을 특징짓고 그래디언트가 이들에 어떻게 투영되는지.
  • 그래디언트 역학이 작고 천천히 변하는 부분공간에 국한되는지 여부와 최적화에 대한 시사점.
  • 아키텍처와 데이터셋 전반에 걸친 실증적 증거를 제시하고 기제 설명을 위한 토이 모델을 제시한다.

제안 방법

  • Hessian을 그 가장 큰 k개 고유벡터로 구성된 상위 부분공간과 벌크 부분공간으로 분해한다(k = 클래스 수).
  • 훈련 동안 top 부분공간에 대한 그래디언트의 투영을 측정하고 f_top = ||g_top||^2 / ||g||^2 를 계산한다.
  • 부분공간 집중의 대리 지표로서 g와 Hg의 정렬을 평가하기 위해 Hessian-그래디언트 중첩(overlap)을 계산한다.
  • 상위 부분공간의 보존 여부를 결정하기 위해 훈련 단계에 걸친 부분공간 중첩을 평가한다.
  • 관찰된 역학을 설명하기 위해 풀이 가능한 토이 모델(가우시안 혼합에 대한 소프트맥스 회귀)을 제시한다.
  • 전체 Hessian을 구성하지 않고도 최상위 고유벡터를 추정하기 위해 Lanczos 방법과 Hessian-벡터 곱을 사용한다.

실험 결과

연구 질문

  • RQ1훈련 동안 그래디언트가 상 Hessian 부분공간에 집중되는가?
  • RQ2상위 Hessian 부분공간이 장시간의 훈련에서도 대략 보존되는가? 아키텍처와 데이터셋 전반에서?
  • RQ3상위 부분공간에 대한 그래디언트 투영이 최적화 진행과 어떻게 관련되는가?
  • RQ4간단한 토이 모델이 관찰된 역학을 재현하고 해석적 통찰을 제공할 수 있는가?

주요 결과

데이터셋모델코멘트평균 중첩
MNISTSoftmax0.96
MNISTFCSoftplus activation0.96
MNISTFCeta=0.010.96
MNISTFCBatch size 2560.97
MNISTFCRandom labels0.86
CIFAR10ConvNetRandom labels0.86
CIFAR10ConvNetDropout, batch-norm, and extra dense layer0.93
CIFAR10ConvNetOptimized using Adam0.89
RegressionFCBatch size 1000.99
  • 아키텍처와 데이터셋에 걸쳐 그래디언트가 빠르게 상 Hessian 부분공간(k 차원, 클래스 수)으로 집중된다.
  • 상위 부분공간은 장기간 훈련에서도 대략 보존되는 반면 벌크 부분공간은 더 빠르게 변화한다.
  • 그래디언트와 Hessian 투영 구성요소 간의 중첩은 실험적 측정에서 높다(1에 가까움).
  • 간단한 토이 모델은 현상을 재현한다: 그래디언트는 상위 부분공간에 위치하고 Hessian은 두 개의 큰 고유값을 가지며 나머지는 거의 0에 가깝다.
  • 작은 분산이나 바이어스를 포함하면 스펙트럼은 교란되지만 주된 상위-부분공간 집중은 그대로 남아 있다.
  • 관찰된 역학은 그래디언트 하강이 고차원적 비대칭 손실 풍경에서도 실제로 볼록하고 저차원 부분공간에서 작동하는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.