Skip to main content
QUICK REVIEW

[논문 리뷰] Stochastic Mirror Descent on Overparameterized Nonlinear Models: Convergence, Implicit Regularization, and Generalization

Navid Azizan, Sahin Lale|arXiv (Cornell University)|2019. 06. 10.
Domain Adaptation and Few-Shot Learning참고 문헌 38인용 수 29
한 줄 요약

이 논문은 오버파rameterized 비선형 모델에서 확률적 미러 경사하강법(SMD)을 연구하여, SMD가 미러의 잠재함수에 의해 정의된 Bregman 발산에서 초기화에 가장 가까운 전역 최솟값으로 수렴함을 보여준다. 놀랍게도 실험 결과, $q=10$일 때 $ψ(q)=\|\cdot\|_q^q$가 $q=2$(SGD) 또는 $q=1$보다 더 나은 일반화 성능을 보이며, 더 적은 희소성(inducing less sparsity)을 유도하지만, 딥 러닝의 일반화에서 암묵적 정규화의 핵심 역할을 하며 중요한 영향을 미친다.

ABSTRACT

Most modern learning problems are highly overparameterized, meaning that there are many more parameters than the number of training data points, and as a result, the training loss may have infinitely many global minima (parameter vectors that perfectly interpolate the training data). Therefore, it is important to understand which interpolating solutions we converge to, how they depend on the initialization point and the learning algorithm, and whether they lead to different generalization performances. In this paper, we study these questions for the family of stochastic mirror descent (SMD) algorithms, of which the popular stochastic gradient descent (SGD) is a special case. Our contributions are both theoretical and experimental. On the theory side, we show that in the overparameterized nonlinear setting, if the initialization is close enough to the manifold of global minima (something that comes for free in the highly overparameterized case), SMD with sufficiently small step size converges to a global minimum that is approximately the closest one in Bregman divergence. On the experimental side, our extensive experiments on standard datasets and models, using various initializations, various mirror descents, and various Bregman divergences, consistently confirms that this phenomenon happens in deep learning. Our experiments further indicate that there is a clear difference in the generalization performance of the solutions obtained by different SMD algorithms. Experimenting on a standard image dataset and network architecture with SMD with different kinds of implicit regularization, $\ell_1$ to encourage sparsity, $\ell_2$ yielding SGD, and $\ell_{10}$ to discourage large components in the parameter vector, consistently and definitively shows that $\ell_{10}$-SMD has better generalization performance than SGD, which in turn has better generalization performance than $\ell_1$-SMD.

연구 동기 및 목표

  • 오버파arameterized 비선형 모델에서 확률적 미러 경사하강법(SMD)이 수렴하는 전역 최솟값이 무엇인지 이해하는 것.
  • 미러 잠재함수의 선택(즉, Bregman 발산을 정의하는 요소)이 암묵적 정규화 및 일반화 성능에 미치는 영향을 조사하는 것.
  • 동일한 훈련 손실을 기록함에도 불구하고, 다양한 SMD 알고리즘이 서로 다른 일반화 성능을 보이는지 확인하는 것.
  • 표준 데이터셋과 아키텍처를 대상으로 체계적인 실험을 통해 이론적으로 예측된 수렴 행동을 검증하는 것.

제안 방법

  • 이론적 분석을 통해 소규모 단계 크기를 가진 SMD가 미러 잠재함수에 의해 유도된 Bregman 발산에서 초기화에 가장 가까운 전역 최솟값으로 수렴함을 입증한다.
  • 이 분석은 초기화가 고차원성으로 인해 자연스럽게 전역 최솟값 다양체에 가까워지는 오버파arameterized 비선형 모델에 적용된다.
  • 실험은 ResNet-18을 사용하여 MNIST와 CIFAR-10 데이터셋에서 수행되며, $\ell_1$, $\ell_2$, $\ell_3$, $\ell_{10}$ 등의 다양한 잠재함수를 가진 SMD를 다양한 초기화로부터 훈련하여 훈련 오차가 0이 되도록 한다.
  • 최종 해와 초기점 간의 쌍별 Bregman 발산 거리를 측정하여, 이론적 예측인 가장 가까운 수렴을 검증한다.
  • 다양한 미러에서의 파라미터 크기의 변화와 희소성 정도를 평가하기 위해 가중치 분포 히스토그램을 분석한다.
  • 다양한 SMD 변종 간의 일반화 성능를 동일한 훈련 손실 조건에서 평가하기 위해 CIFAR-10에서의 테스트 정확도를 측정한다.

실험 결과

연구 질문

  • RQ1확률적 미러 경사하강법(SMD)이 미러 잠재함수에 의해 정의된 Bregman 발산에서 초기화에 가장 가까운 전역 최솟값으로 수렴하는가?
  • RQ2미러 잠재함수의 선택이 딥 뉴럴 네트워크의 암묵적 정규화 및 일반화 성능에 어떤 영향을 미치는가?
  • RQ3실제로 다양한 초기화 및 미러 유형에서 Bregman 발산에서 가장 가까운 최솟값으로의 수렴이 일관되게 관찰되는가?
  • RQ4왜 $\ell_{10}$-SMD는 희소성 유도가 덜 되는 데도 $\ell_2$-SMD(SGD)와 $\ell_1$-SMD보다 일반화 성능이 뛰어나게 되는가?
  • RQ5SMD의 암묵적 정규화 효과를 체계적으로 활용하여 딥 러닝의 테스트 성능을 향상시킬 수 있는가?

주요 결과

  • 모든 실험에서, 어떤 SMD 알고리즘으로도 최종 해가 해당 알고리즘의 초기화에 대해 미러 잠재함수에 의해 정의된 Bregman 발산에서 가장 가까운 것으로 확인되어 이론적 예측이 검증되었다.
  • $\ell_{10}$-SMD 알고리즘이 CIFAR-10에서 가장 뛰어난 일반화 성능을 보였으며, $\ell_2$-SMD(SGD) 및 $\ell_1$-SMD를 모두 앞섰다.
  • $\ell_1$-SMD 알고리즘이 가중치 크기 히스토그램을 통해 최종 가중치에 상당한 희소성이 있음을 확인하였다.
  • $\ell_2$-SMD(SGD)는 초기 가중치 분포를 가장 잘 유지하였으며, 히스토그램에서 최소한의 이동이 관찰되었다.
  • $\ell_{10}$-SMD는 가중치 분포를 상당히 더 큰 크기로 이동시켰으며, 거의 모든 가중치가 0.005에서 0.04의 범위에 위치하고 비영인 것으로 나타났다.
  • 동일한 훈련 손실과 완벽한 보간 조건에도 불구하고, 테스트 정확도는 SMD 변종 간에 크게 차이가 났으며, $\ell_{10}$-SMD는 CIFAR-10에서 일관되게 가장 높은 정확도를 기록하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.