QUICK REVIEW

[논문 리뷰] Stochastic subgradient method converges at the rate $O(k^{-1/4})$ on weakly convex functions

Damek Davis, Dmitriy Drusvyatskiy|arXiv (Cornell University)|2018. 02. 08.

Sparse and Compressive Sensing Techniques참고 문헌 21인용 수 46

한 줄 요약

본 논문은 proximal stochastic subgradient 방법을 약한 볼록 목적함수에 적용하면 Moreau 엔벨로프의 그래디언트가 k^{-1/4}의 속도로 0에 수렴하여 근사 정지성(near-stationarity)을 얻는 데 필요한 반복 수가 O(ε^{-4})임을 보여준다.

ABSTRACT

We prove that the proximal stochastic subgradient method, applied to a weakly convex problem, drives the gradient of the Moreau envelope to zero at the rate $O(k^{-1/4})$. As a consequence, we resolve an open question on the convergence rate of the proximal stochastic gradient method for minimizing the sum of a smooth nonconvex function and a convex proximable function.

연구 동기 및 목표

r이 계산 가능한 proximal 맵을 갖는 닫힌 볼록 함수이고 g가 ρ-약볼록일 때 φ(x)=g(x)+r(x)의 최적화를 동기 부여하고 분석한다.
표준 확률적 오라클 가정(A1–A3) 하에서 proximal stochastic subgradient 방법에 대한 수렴 보장을 제공한다.
λ=1/(2ρ)일 때 Moreau 엔벨로프 φ_{λ}의 그래디언트를 이용하여 근사 정지성의 속도를 특징지운다.
적절한 설정에서 이 방법은 ε-정지성 측정치를 O(ε^{-4}) 반복에서 달성한다.
이 결과가 g가 비매끄러운 경우로 알려진 속도들을 확장하고 확률적 추정의 분산이 감소하지 않아도 허용되는지 논의한다.

제안 방법

r이 계산 가능한 proximal 맵을 갖는 닫힌 볼록 함수이고 g가 ρ-약볼록일 때 φ(x)=g(x)+r(x)로 문제를 형식화한다.
G(x_t, ξ_t)가 g의 하위그래디언트의 편향되지 않은 추정일 때 x_{t+1} = prox_{α_t r}(x_t - α_t G(x_t, ξ_t))를 사용한다.
Moreau 엔벨로프 φ_λ를 정의하고 ∇φ_{λ}(x) = (x - prox_{λφ}(x))/λ를 이용해 근사 정지성을 측정한다.
가정(A1) 독립동일분포 데이터, (A2) ∂g(x)에 속하는 확률적 하위그래디언트, (A3) G의 분산이 한정되어 있음, 그리고 α_t ∈ (0, 1/ρ]에 대해 수렴을 입증한다.
초기 간극, 분산 및 스텝 사이즈에 따라 E[||∇φ_{1/ârho}(x_{t*})||^2]에 대한 상한을 도출하고 ε-정지성에 대해 O(ε^{-4}) 반복 복잡도를 얻는다.
상수 스텝사이즈에 대한 코로롤리(constant stepsizes)에 대한 결과를 제시하고 볼록/매끄러운 경우의 개선에 대해 논의한다.

실험 결과

연구 질문

RQ1약한 볼록 목적함수에 대한 proximal stochastic subgradient 방법의 수렴 속도는 얼마인가?
RQ2Moreau 엔벨로프의 그래디언트로 근사 정지성을 인증할 수 있으며 ∥∇φ_{1/(2ρ)}(x)∥이 어떤 속도로 축소되는가?
RQ3확률적 오라클의 분산 가정은 속도에 어떤 영향을 주며 비감소 분산을 허용할 수 있는가?
RQ4제안된 틀에서 ε-정지성을 달성하기 위한 반복 복잡도는 어떻게 되는가?
RQ5g가 매끄럽거나 r이 지시자/투사 항인 경우 결과가 어떻게 달라지는가?

주요 결과

proximal stochastic subgradient 방법은 Moreau 엔벨로프의 그래디언트를 O(k^{-1/4})의 속도로 0으로 수렴시킨다.
표준 가정 하에서 이 방법은 적절한 상수들로 E[∥∇φ_{1/(2ρ)}(x_{t*})∥^2] ≤ C/(√{T+1})를 달성하여 ε-정지성에 대해 O(ε^{-4}) 반복 복잡도를 시사한다.
상수 스텝사이즈 α ≈ 1/√(T+1)일 때 이 경계는 O( (φ_{1/(2ρ)}(x0) - min φ) + ρ L^2 γ^2 ) / (γ √(T+1))로 스케일링된다.
만약 g가 볼록하면, 이 논문은 다단계 혹은 정규화된 변형을 통한 개선 가능성을 제시하며 특정 영역에서 더 빠른 속도를 달성한다.
매끄러운 설정에서 분산이 유한한 경우 ∥∇φ_{1/(2ρ)}(x_{t*})∥^2에 대해 유사한 ε^{-4} 의존성과 추가 σ^2 항이 성립한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.