QUICK REVIEW

[논문 리뷰] SGD and Hogwild! Convergence Without the Bounded Gradients Assumption

Lam M. Nguyen, Phuong Ha Nguyen|arXiv (Cornell University)|2018. 02. 11.

Stochastic processes and financial applications인용 수 39

한 줄 요약

이 논문은 강한 볼록성 하에서 균일한 유계 기울기 조건을 요구하지 않는 스 tochastic optimization에 대해 SGD와 Hogwild!의 수렴성을 확립한다 — 이는 강한 볼록성 설정에서 실패하는 표준 가정이다. 기계학습 문제의 구조를 활용함으로써 개별 스 tochastic 기울기는 리프시츠 연속성이 있고 전체 목적함수는 강한 볼록성을 만족함을 고려할 때, 저감하는 단계 크기 하에서 새로운 수렴 속도를 유도하며, $5{\mathbb{E}[\|\hat{w}_{t+1}-w_{*}\|^{2}]} \leq \frac{4\alpha^{2}DN}{\mu^{2}}\frac{1}{t} + O(\frac{1}{t\ln t})$를 증명한다. 이는 저감 단계 크기를 사용하는 Hogwild!에 대해 처음으로 이러한 결과를 도출한 것이다.

ABSTRACT

Stochastic gradient descent (SGD) is the optimization algorithm of choice in many machine learning applications such as regularized empirical risk minimization and training deep neural networks. The classical convergence analysis of SGD is carried out under the assumption that the norm of the stochastic gradient is uniformly bounded. While this might hold for some loss functions, it is always violated for cases where the objective function is strongly convex. In (Bottou et al.,2016), a new analysis of convergence of SGD is performed under the assumption that stochastic gradients are bounded with respect to the true gradient norm. Here we show that for stochastic problems arising in machine learning such bound always holds; and we also propose an alternative convergence analysis of SGD with diminishing learning rate regime, which results in more relaxed conditions than those in (Bottou et al.,2016). We then move on the asynchronous parallel setting, and prove convergence of Hogwild! algorithm in the same regime, obtaining the first convergence results for this method in the case of diminished learning rate.

연구 동기 및 목표

고전적인 SGD 수렴 분석이 균일한 유계 스 tochastic 기울기 조건에 의존하는 한계를 해결하기 위해.
이러한 유계 기울기 가정이 정규화된 최소 제곱법과 로지스틱 회귀와 같은 강한 볼록 문제에서 본질적으로 위반됨을 보여주기 위해.
개별 스 tochastic 함수가 볼록이고 기울기가 리프시츠 연속되며 전체 목적함수가 강한 볼록임을 전제로 하여 SGD와 Hogwild!의 수렴성을 확립하기 위해.
유계 기울기 조건 없이 저감 단계 크기 제어 하에서 두 방법의 수렴 속도를 도출하기 위해.
낮아지는 학습률을 사용하는 Hogwild!에 대한 이론적 분석을 제공하고, 실용적 설정으로의 이론적 기반을 확장하기 위해.

제안 방법

저자들은 각 $f(w;\xi)$가 볼록이고 기울기가 리프시츠 연속되며, 기대 목적함수 $F(w)$가 $\mu$-강한 볼록임을 가정하여 SGD와 Hogwild!를 분석한다.
기계학습 문제의 구조를 활용함으로써 균일한 유계 기울기 조건을 피하는 새로운 분석 프레임워크를 도입한다. 이는 스 tochastic 기울기가 진짜 기울기 노름에 대해 자연스럽게 유계임을 고려한다.
Hogwild!의 경우, 유한한 지연 $\tau(t)$를 갖는 비동기 업데이트를 모델링하고, 최적해 $w_*$까지의 기대 제곱 거리에 대한 경계를 유도한다.
기울기 노이즈, 지연, 단계 크기 감쇠를 포함하는 $\mathbb{E}[\|\hat{w}_t - w_*\|^2]$를 포함하는 재귀 기대값 경계를 사용한다.
지연이 시간에 따라 변하는 $\tau(t) \leq \sqrt{t \cdot L(t)}$를 도입하며, $L(t) = \frac{1}{\ln t} - \frac{1}{(\ln t)^2}$로 정의하여 오차 누적 증가를 제어한다.
기본 레마를 도출하여, 저감 단계 크기 $\eta_t = \frac{\alpha_t}{\mu(t + 2\tau(t))}$ 하에서 기대 오차가 $O(1/t)$로 감소함을 보이며, 보조적으로 $O(1/(t \ln t))$ 항이 존재함을 증명한다. 이때 $\alpha_t \in [12, \alpha]$이다.

실험 결과

연구 질문

RQ1강한 볼록 문제에서 고전적인 균일한 유계 스 tochastic 기울기 가정 없이 SGD가 수렴할 수 있는가?
RQ2이전 분석이 상수 또는 다항로그 단계 크기를 요구했음에도 불구하고, 저감 학습률 스케줄링 하에서 Hogwild! 알고리즘이 수렴하는가?
RQ3스 tochastic 기울기가 균일하게 유계가 아니지만 전체 목적함수가 강한 볼록일 경우, SGD와 Hogwild!의 수렴 속도는 어떻게 되는가?
RQ4비동기 설정에서 유한한 업데이트 지연이 존재할 경우 수렴에 어떤 영향을 미치며, 이를 기대값으로 정량화할 수 있는가?
RQ5개별 함수 $f(w;\xi)$가 비볼록일 경우 분석을 어떻게 확장할 수 있으며, $F(w)$의 강한 볼록성 조건을 유지하면서도 수렴성을 보장할 수 있는가?

주요 결과

논문은 고전적인 균일한 유계 스 tochastic 기울기 가정이 강한 볼록성과 호환되지 않음을 증명한다. 이는 목적함수의 성장과 모순됨을 초래한다.
SGD의 경우, 기대 제곱 오차 $\mathbb{E}[\|\hat{w}_{t+1} - w_*\|^2]$는 $\frac{4\alpha^2DN}{\mu^2} \cdot \frac{1}{t} + O\left(\frac{1}{t\ln t}\right)$ 속도로 감소하며, 이는 유계 기울기 조건 없이 처음으로 도출된 결과이다.
분석은 저감 단계 크기 $\eta_t = \frac{\alpha_t}{\mu(t + 2\tau(t))}$ 하에서 오차 경계가 유지됨을 확인한다. 이는 기울기가 최적점 근처에서 증가하더라도 수렴을 보장한다.
Hogwild!의 경우, 동일한 가정 하에서 저감 학습률을 사용하는 최초의 수렴 결과를 확립한다. 이는 시간에 따라 변하는 지연 $\tau(t) \leq \sqrt{t \cdot L(t)}$를 모델링함으로써 달성된다.
유도된 수렴 속도는 지연과 노이즈에 대해 강건하며, 주요 오차 항은 $O(1/t)$로 감소하고, 보조 항 $O(1/(t\ln t))$는 큰 $t$에서 무시 가능해진다.
분석은 $t \geq \exp\left[2\sqrt{\Delta}\left(1 + \frac{(L+\mu)\alpha}{\mu}\right)\right]$일 때 $O(1/t)$ 항이 지배적임을 보여주며, 이는 渐近 수렴 속도를 검증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.