QUICK REVIEW

[논문 리뷰] Gradient Descent Happens in a Tiny Subspace

Guy Gur-Ari, Daniel A. Roberts|arXiv (Cornell University)|2018. 12. 12.

Stochastic Gradient Optimization Techniques참고 문헌 14인용 수 110

한 줄 요약

훈련 중 그래디언트는 상 Hessian 부분공간(차원은 클래스 수)에서 집중하며 이 부분공간은 거의 고정된 채 남아 있어 그래디언트 하강이 사실상 작고 진화하는 부분공간에서 작동한다는 것을 시사한다.

ABSTRACT

We show that in a variety of large-scale deep learning scenarios the gradient dynamically converges to a very small subspace after a short period of training. The subspace is spanned by a few top eigenvectors of the Hessian (equal to the number of classes in the dataset), and is mostly preserved over long periods of training. A simple argument then suggests that gradient descent may happen mostly in this subspace. We give an example of this effect in a solvable model of classification, and we comment on possible implications for optimization and learning.

연구 동기 및 목표

대규모 과초적 매개변수 모델에서 SGD 중 그래디언트와 Hessian 스펙트럼의 동작을 조사한다.
최상위와 벌크로 Hessian의 부분공간을 특징짓고 그래디언트가 이들에 어떻게 투영되는지.
그래디언트 역학이 작고 천천히 변하는 부분공간에 국한되는지 여부와 최적화에 대한 시사점.
아키텍처와 데이터셋 전반에 걸친 실증적 증거를 제시하고 기제 설명을 위한 토이 모델을 제시한다.

제안 방법

Hessian을 그 가장 큰 k개 고유벡터로 구성된 상위 부분공간과 벌크 부분공간으로 분해한다(k = 클래스 수).
훈련 동안 top 부분공간에 대한 그래디언트의 투영을 측정하고 f_top = ||g_top||^2 / ||g||^2 를 계산한다.
부분공간 집중의 대리 지표로서 g와 Hg의 정렬을 평가하기 위해 Hessian-그래디언트 중첩(overlap)을 계산한다.
상위 부분공간의 보존 여부를 결정하기 위해 훈련 단계에 걸친 부분공간 중첩을 평가한다.
관찰된 역학을 설명하기 위해 풀이 가능한 토이 모델(가우시안 혼합에 대한 소프트맥스 회귀)을 제시한다.
전체 Hessian을 구성하지 않고도 최상위 고유벡터를 추정하기 위해 Lanczos 방법과 Hessian-벡터 곱을 사용한다.

실험 결과

연구 질문

RQ1훈련 동안 그래디언트가 상 Hessian 부분공간에 집중되는가?
RQ2상위 Hessian 부분공간이 장시간의 훈련에서도 대략 보존되는가? 아키텍처와 데이터셋 전반에서?
RQ3상위 부분공간에 대한 그래디언트 투영이 최적화 진행과 어떻게 관련되는가?
RQ4간단한 토이 모델이 관찰된 역학을 재현하고 해석적 통찰을 제공할 수 있는가?

주요 결과

데이터셋	모델	코멘트	평균 중첩
MNIST	Softmax		0.96
MNIST	FC	Softplus activation	0.96
MNIST	FC	eta=0.01	0.96
MNIST	FC	Batch size 256	0.97
MNIST	FC	Random labels	0.86
CIFAR10	ConvNet	Random labels	0.86
CIFAR10	ConvNet	Dropout, batch-norm, and extra dense layer	0.93
CIFAR10	ConvNet	Optimized using Adam	0.89
Regression	FC	Batch size 100	0.99

아키텍처와 데이터셋에 걸쳐 그래디언트가 빠르게 상 Hessian 부분공간(k 차원, 클래스 수)으로 집중된다.
상위 부분공간은 장기간 훈련에서도 대략 보존되는 반면 벌크 부분공간은 더 빠르게 변화한다.
그래디언트와 Hessian 투영 구성요소 간의 중첩은 실험적 측정에서 높다(1에 가까움).
간단한 토이 모델은 현상을 재현한다: 그래디언트는 상위 부분공간에 위치하고 Hessian은 두 개의 큰 고유값을 가지며 나머지는 거의 0에 가깝다.
작은 분산이나 바이어스를 포함하면 스펙트럼은 교란되지만 주된 상위-부분공간 집중은 그대로 남아 있다.
관찰된 역학은 그래디언트 하강이 고차원적 비대칭 손실 풍경에서도 실제로 볼록하고 저차원 부분공간에서 작동하는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.