Skip to main content
QUICK REVIEW

[논문 리뷰] Convergence of Gradient Descent on Separable Data

Mor Shpigel Nacson, Jason D. Lee|arXiv (Cornell University)|2018. 03. 05.
Stochastic Gradient Optimization Techniques참고 문헌 17인용 수 29
한 줄 요약

이 논문은 초다항 꼬리를 가진 손실 함수(예: 로지스틱 손실 포함)에 대해 분리 가능한 데이터에서 경사 하강법이 방향으로 L2 최대 마진 분리자로 수렴함을 규명한다. 또한 지수 꼬리 손실 함수의 경우 적응형 스텝 사이즈를 사용할 때 표준 고정 스텝 사이즈의 O(1/log t)보다 훨씬 빠른 O(log t / √t)의 최적 수렴 속도를 달성함을 증명한다.

ABSTRACT

We provide a detailed study on the implicit bias of gradient descent when optimizing loss functions with strictly monotone tails, such as the logistic loss, over separable datasets. We look at two basic questions: (a) what are the conditions on the tail of the loss function under which gradient descent converges in the direction of the $L_2$ maximum-margin separator? (b) how does the rate of margin convergence depend on the tail of the loss function and the choice of the step size? We show that for a large family of super-polynomial tailed losses, gradient descent iterates on linear networks of any depth converge in the direction of $L_2$ maximum-margin solution, while this does not hold for losses with heavier tails. Within this family, for simple linear models we show that the optimal rates with fixed step size is indeed obtained for the commonly used exponentially tailed losses such as logistic loss. However, with a fixed step size the optimal convergence rate is extremely slow as $1/\log(t)$, as also proved in Soudry et al. (2018). For linear models with exponential loss, we further prove that the convergence rate could be improved to $\log (t) /\sqrt{t}$ by using aggressive step sizes that compensates for the rapidly vanishing gradients. Numerical results suggest this method might be useful for deep networks.

연구 동기 및 목표

  • 분리 가능한 데이터에서 정규화되지 않은, 엄밀히 단조 증가하는 손실 함수를 사용한 선형 분류에서 경사 하강법의 암묵적 편향을 이해한다.
  • 경사 하강법이 L2 최대 마진 분리자로 수렴하는 데 필요한 손실 함수 꼬리 조건을 규명한다.
  • 최대 마진 해로의 수렴 속도가 손실 함수의 꼬리와 스텝 사이즈 선택에 따라 어떻게 달라지는지 특성화한다.
  • 분석을 심층 선형 네트워크로 확장하고 깊이가 수렴 속도에 미치는 영향을 조사한다.
  • 적응형 스텝 사이즈 전략이 표준 O(1/log t) 속도를 초월해 최대 마진 해로의 수렴 속도를 가속화할 수 있는지 탐색한다.

제안 방법

  • 초다항 꼬리를 가진 엄밀히 단조 증가하는 손실 함수를 갖는 선형 모델에서 경사 하강법의 역학을 분석한다.
  • 점근적 분석과 리아푸노프 함수 기법을 사용하여 최대 마진 해로의 방향 수렴을 연구한다.
  • 기울기 노름의 역수에 비례하는 스텝 사이즈를 갖는 정규화된 기울기 갱신을 도입하여 수렴 속도를 가속화한다.
  • 지수 꼬리 손실 함수(예: 로지스틱)의 경우, 적응형 스텝 사이즈를 사용할 때 마진 수렴 속도가 O(1/log t)에서 O(log t / √t)로 향상됨을 증명한다.
  • 완전히 연결된 레이어를 갖는 심층 선형 네트워크로 분석을 확장하여 유사한 수렴 행동과 최소한의 깊이 의존성을 보여준다.
  • 테일러 전개와 지수 항에 대한 경계를 활용하여 수렴 분석에서 오차 항을 제어한다.

실험 결과

연구 질문

  • RQ1어떤 손실 함수 꼬리 조건이 분리 가능한 데이터에서 경사 하강법이 L2 최대 마진 분리자로 방향 수렴하도록 보장하는가?
  • RQ2최대 마진 해로의 수렴 속도는 손실 함수의 꼬리와 스텝 사이즈 선택에 따라 어떻게 달라지는가?
  • RQ3적응형 스텝 사이즈를 사용하여 지수 꼬리 손실 함수의 수렴 속도를 O(1/log t)를 초월해 가속화할 수 있는가?
  • RQ4최대 마진 해로의 암묵적 편향은 심층 선형 네트워크로 확장되는가? 깊이는 수렴 속도에 어떤 영향을 미치는가?
  • RQ5비선형 신경망에서 적응형 스텝 사이즈를 사용할 경우 향상된 수렴 속도가 실질적으로 관측 가능한가?

주요 결과

  • 초다항 꼬리를 가진 모든 손실 함수에 대해 경사 하강법은 방향으로 L2 최대 마진 분리자로 수렴하지만, 초다항 이하의 꼬리 또는 다항 꼬리 손실 함수의 경우 그렇지 않다.
  • 로지스틱 손실과 같은 지수 꼬리 손실 함수의 경우, 표준 고정 스텝 사이즈 경사 하강법이 최적의 마진 수렴 속도인 O(1/log t)를 달성한다.
  • 기울기 노름의 역수에 비례하는 스텝 사이즈를 갖는 정규화된 기울기 갱신을 사용할 경우, 마진 수렴 속도가 O(1/log t)보다 훨씬 빠른 O(log t / √t)로 향상된다.
  • 적응형 스텝 사이즈를 사용할 때 향상된 수렴 속도는 단순 선형 모델뿐 아니라 심층 선형 네트워크에서도 유지되며, 무한한 깊이의 극한에서도 최소한의 열화가 발생한다.
  • 수치적 결과는 적응형 스텝 사이즈를 사용할 경우 수렴 속도가 비선형 신경망에서도 유익할 수 있음을 시사한다.
  • 분석은 경사 하강법의 암묵적 편향이 손실 함수가 엄밀히 단조 증가하고 초다항 꼬리를 갖는 한 초기화 및 스텝 사이즈에 대해 강건함을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.