Skip to main content
QUICK REVIEW

[논문 리뷰] Convergence of Online Adaptive and Recurrent Optimization Algorithms

Pierre-Yves Massé, Yann Ollivier|arXiv (Cornell University)|2020. 05. 12.
Stochastic Gradient Optimization Techniques인용 수 3
한 줄 요약

이 논문은 확률적 가정 대신 경험적 시간 평균을 기반으로 하는 통합 프레임워크를 사용하여, RTRL, NoBackTrack, UORO, RMSProp 및 β₂→1 방향의 Adam과 같은 온라인 적응형 및 순환 최적화 알고리즘에 대한 국소 수렴을 확립한다. 주요 기여는 미묘한 정규성 및 안정성 조건 하에서 일반적인 수렴 정리의 증명으로, 이는 기울기가 유한하고 순환적인 데이터셋에서 평균화될 경우 이러한 알고리즘이 국소적으로 수렴함을 보여주며, 표준 SGD보다 더 큰 학습률을 허용한다.

ABSTRACT

We prove local convergence of several notable gradient descent algorithms used in machine learning, for which standard stochastic gradient descent theory does not apply directly. This includes, first, online algorithms for recurrent models and dynamical systems, such as \emph{Real-time recurrent learning} (RTRL) and its computationally lighter approximations NoBackTrack and UORO; second, several adaptive algorithms such as RMSProp, online natural gradient, and Adam with $\beta^2 o 1$.Despite local convergence being a relatively weak requirement for a new optimization algorithm, no local analysis was available for these algorithms, as far as we knew. Analysis of these algorithms does not immediately follow from standard stochastic gradient (SGD) theory. In fact, Adam has been proved to lack local convergence in some simple situations \citep{j.2018on}. For recurrent models, online algorithms modify the parameter while the model is running, which further complicates the analysis with respect to simple SGD.Local convergence for these various algorithms results from a single, more general set of assumptions, in the setup of learning dynamical systems online. Thus, these results can cover other variants of the algorithms considered.We adopt an "ergodic" rather than probabilistic viewpoint, working with empirical time averages instead of probability distributions. This is more data-agnostic and creates differences with respect to standard SGD theory, especially for the range of possible learning rates. For instance, with cycling or per-epoch reshuffling over a finite dataset instead of pure i.i.d.\ sampling with replacement, empirical averages of gradients converge at rate $1/T$ instead of $1/\sqrt{T}$ (cycling acts as a variance reduction method), theoretically allowing for larger learning rates than in SGD.

연구 동기 및 목표

  • 표준 확률적 경사 하강법(SGD) 이론이 적용되지 않는 온라인 적응형 및 순환 최적화 알고리즘에 대한 국소 수렴을 확립하는 것.
  • 실제로 널리 사용되지만 RTRL, NoBackTrack, UORO 등의 알고리즘에 대해 국소 수렴 분석이 부족한 문제를 해결하는 것.
  • i.i.d. 데이터 샘플링을 가정하지 않는 비확률적 프레임워크 대신 경험적 시간 평균을 기반으로 하는 통합 이론적 프레임워크를 개발하는 것.
  • 유한한 데이터셋을 순환하거나 에포크별로 재배치할 경우 기울기 평균의 수렴 속도가 1/T가 되며, 이는 i.i.d. SGD보다 더 큰 학습률을 허용함을 보여주는 것.
  • RMSProp 및 온라인 자연 경사 하강법과 같은 적응형 알고리즘을 일반화된 온라인 학습 알고리즘의 특수한 경우로 간주하여 분석할 수 있도록 하는 것.

제안 방법

  • i.i.d. 샘플링 하의 기대값 대신 유한하고 순환적인 데이터셋에서 기울기의 경험적 시간 평균에 기반한 '에르고딕' 시각을 사용한다.
  • 시간 평균 기울기와 제어 가능한 스텝 크기를 갖는 파rameter 업데이트를 갖는 동적 시스템을 위한 추상적 온라인 학습 알고리즘을 도입한다.
  • 유한한 구간 내에서 오차의 수축과 안정성 및 수렴 속도의 균형을 위해 스텝 크기를 조정함으로써 국소 최소점 θ∗ 주변에서 수축 원리를 적용한다.
  • 목표 궤적의 부드러움과 안정성에 대한 가정을 통해 상태 궤적과 손실 함수의 고차 도함수의 균일한 유계성을 확립한다.
  • 자기 일관성과 유계성을 보장하기 위해 제약 조건을 갖는 전이 연산자의 스펙트럼 반경 제어를 통해 자코비안과 헤시안의 진화를 제어하는 안정된 튜브 원리를 사용한다.
  • 유한 시간 이탈 한계와 간격 내 오차의 수축을 통해 수렴을 증명하며, 안정성과 수렴 속도의 균형을 이루기 위해 스텝 크기를 선택한다.

실험 결과

연구 질문

  • RQ1RTRL 및 그 근사 알고리즘(NoBackTrack, UORO)은 온라인 및 비-i.i.d. 성격을 지니고 있음에도 불구하고 국소 수렴을 증명할 수 있는가?
  • RQ2β₂→1 방향의 Adam은 표준 SGD 환경에서는 실패하나, 국소 수렴이 가능한가?
  • RQ3RMSProp 및 온라인 자연 경사 하강법과 같은 적응형 알고리즘을 i.i.d. 가정을 피하는 통합 프레임워크로 분석할 수 있는가?
  • RQ4경험적 평균을 순환 또는 재배치된 데이터셋에서 사용할 경우, i.i.d. 샘플링 대비 수렴 속도와 학습률 한계에 어떤 영향을 미치는가?
  • RQ5온라인 순환 학습에서 파rameter 업데이트가 국소 최소점으로 수렴하고 유계성을 유지하기 위한 조건은 무엇인가?

주요 결과

  • 일반적인 가정 집합 하에서 RTRL, NoBackTrack, UORO, RMSProp, 온라인 자연 경사 하강법, β₂→1 방향의 Adam에 대해 국소 수렴이 증명된다.
  • 순환 또는 에포크별 재배치 시 기울기 평균의 수렴 속도는 1/T이며, 이는 i.i.d. SGD의 1/√T 수렴 속도보다 더 큰 학습률을 허용함을 의미한다.
  • 최적 궤적 주변의 안정된 튜브에서 상태 궤적과 손실 함수의 삼차 도함수의 균일한 유계성을 확립한다.
  • 예비 조건을 만족시키기 위해 전치 행렬의 2차 도함수가 유계일 경우, 확장된 헤시안의 자기 일관성이 달성된다.
  • 최적 궤적에서의 편차가 시간이 지남에 따라 제어될 수 있도록 상태 및 자코비안에 대해 안정된 튜브를 구성한다.
  • 불완전한 RTRL 알고리즘(예: NoBackTrack, UORO)이 근본 시스템이 안정되고 근사 오차가 유계일 경우에도 국소적으로 수렴함을 분석을 통해 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.