Skip to main content
QUICK REVIEW

[논문 리뷰] Characterizing Implicit Bias in Terms of Optimization Geometry

Suriya Gunasekar, Jason Lee|arXiv (Cornell University)|2018. 02. 22.
Sparse and Compressive Sensing Techniques참고 문헌 31인용 수 47
한 줄 요약

다양한 최적화 알고리즘이 고유한 유한 근을 가진 손실과 엄격하게 단조로운 손실을 가진 언더결정 선형 모델에서 전역 최솟값의 선택에 어떻게 편향을 부여하는지 분석하고, 암묵적 편향을 최적화 기하학(포텐셜, 노름)과 초기화에 연결한다.

ABSTRACT

We study the implicit bias of generic optimization methods, such as mirror descent, natural gradient descent, and steepest descent with respect to different potentials and norms, when optimizing underdetermined linear regression or separable linear classification problems. We explore the question of whether the specific global minimum (among the many possible global minima) reached by an algorithm can be characterized in terms of the potential or norm of the optimization geometry, and independently of hyperparameter choices such as step-size and momentum.

연구 동기 및 목표

  • 일반적인 최적화 방법들이 여러 전역 최솟값 중에서의 암묵적 편향을 어떻게 최적화 기하학과 초기화에 의해 특징지어질 수 있는지 결정한다.
  • 고유한 유한 근을 가지는 손실과 엄격하게 단조로운 손실이 서로 다른 기하학하에서 극한 거동(점 또는 방향)에 어떤 영향을 미치는지 구별한다.
  • 다양한 기하학에서 미러 디센트, 자연 그라디언트 디센트, steepest descent에 대해 정확한 편향 특성을 제공한다.

제안 방법

  • 경험적 위험 최소화하에 고유한 유한 근을 갖는 손실(예: 제곱손실)과 엄격히 단조로운 손실(예: 로지스틱, 지수)을 갖는 선형 모델을 분석한다.
  • 다양한 알고리즘 및 기하학하에서 최적화 궤적의 극한점(w_infty 또는 w_bar_infty) 방향을 특징짓는다.
  • 미러 디센트(제한된 버전 포함)에 대한 정리를 도출하여 유효해로에서 D_psi의 최소화점으로 극한점을 보인다.
  • psi가 이차일 때는 극한에서 자연 그라디언트 디센트가 미러 디센트와 일치하는 무한소 스텝의 결과를 보이고, 그렇지 않으면 유한 스텝이 편향을 바꿀 수 있다.
  • 엄격히 단조로운 손실의 경우 경사하강법과 steepest descent는 초기화와 보통의 스텝사이즈에 무관하게 주어진 노름에 따라 최대 마진 해석으로 방향 수렴한다(일부 조건하에).
  • AdaGrad의 편향은 초기화와 초기 G_t에 의존함을 보인다, 단조로운 손실에서도.

실험 결과

연구 질문

  • RQ1다양한 최적화 알고리즘의 암묵적 편향이 스텝 사이즈, 모멘텀, 확률적 요소와 무관하게 최적화 기하학(포텐셜 또는 노름)만으로 특성화될 수 있는가?
  • RQ2고유한 유한 근을 가지는 손실과 엄격하게 단조로운 손실이 서로 다른 기하학하에서 최적화 궤적의 극한 거동(점과 방향)에 어떤 영향을 미치는가?
  • RQ3다양한 기하학에 대해 미러 디센트, 자연 그라디언트 디센트, steepest descent의 극한점 또는 방향은 어떻게 나타나는가?
  • RQ4무한소 스텝 분석이 비유클리드 기하학에서의 편향 특성을 회복하는가, 그리고 유한 스텝이 이 편향들에 어떤 영향을 미치는가?
  • RQ5AdaGrad 같은 적응 방법이 손실 유형에 따라 암묵적 편향에 어떤 영향을 미치는가?

주요 결과

  • 고유한 유한 근을 가진 손실에 대해 미러 디센트는 초기화에 대해 D_psi를 최소화하는 전역 최솟값으로 수렴하고, psi-최소지점에서 시작하면 최소-psi 글로벌 최솟값으로 수렴한다.
  • 미러 디센트의 이중공간 모멘텀은 데이터 매니폴드 제약을 보존하고 적절한 조건에서 psi-최소자에 대한 편향을 유지하며, 프라이멀 모멘텀은 극한점을 이 편향에서 벗어나게 할 수 있다.
  • 무한소 스텝일 때 자연 그라디언트 디센트는 미러 디센트와 같은 극한점을 가지지만, 유한 스텝일 때 편향은 일반적으로 다르고 스텝사이즈에 의존할 수 있다.
  • 일반 노름으로의 steepest descent는 유클리드 경우와 달리 유한 또는 무한소 스텝에서도 단순하고 초기화 독립적인 편향을 일반적으로 가지지 않는다.
  • 엄격히 단조로운 손실의 경우(예: 지수, 로지스틱) 경사하강법과 steepest descent는 초기화와 제약 하의 작은 스텝사이즈에 의존하지 않고 선택된 노름에 대해 최대 마진 분리자 방향으로 수렴한다.
  • AdaGrad의 암묵적 편향은 G_t의 유한한 증가로 인해 단조로운 손실에도 초기화와 초기 G_t에 의존한다.
  • 행렬 인수분해 매개변수화(W = UV^T)은 추가적인 비볼록성을 도입하며 다양한 최적화 스케줄에서의 암묵적 편향에 대한 더 넓은 논의와 연계된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.