QUICK REVIEW

[논문 리뷰] Analysis of nonsmooth stochastic approximation: the differential inclusion approach

Szymon Majewski, Błażej Miasojedow|arXiv (Cornell University)|2018. 05. 04.

Stochastic Gradient Optimization Techniques참고 문헌 20인용 수 24

한 줄 요약

이 논문은 비연속적인 확률적 보정 알고리즘을 분석하기 위해 미분 포함(differential inclusion) 접근법을 개발하며, 전통적인 ODE 방법을 비볼록, 비연속적인 설정으로 확장한다. 목적 함수가 국소 리프시츠이지만 미분 가능하지 않은 일반 조건 하에서 확률적 하향 및 프록시멀 그래디언트 방법의 수렴성을 모델링한 경계 역학을 미분 포함으로 나타내어, 비연속 목표 함수를 가진 딥러닝 및 고차원 희소 추론 문제의 분석을 가능하게 한다.

ABSTRACT

In this paper we address the convergence of stochastic approximation when the functions to be minimized are not convex and nonsmooth. We show that the "mean-limit" approach to the convergence which leads, for smooth problems, to the ODE approach can be adapted to the non-smooth case. The limiting dynamical system may be shown to be, under appropriate assumption, a differential inclusion. Our results expand earlier works in this direction by Benaim et al. (2005) and provide a general framework for proving convergence for unconstrained and constrained stochastic approximation problems, with either explicit or implicit updates. In particular, our results allow us to establish the convergence of stochastic subgradient and proximal stochastic gradient descent algorithms arising in a large class of deep learning and high-dimensional statistical inference with sparsity inducing penalties.

연구 동기 및 목표

전통적인 ODE 방법을 비연속적이며 비볼록 최적화 문제로 확장하기 위해.
목적 함수가 국소 리프시츠이지만 미분 가능하지 않은 설정에서 확률적 하향 및 프록시멀 그래디언트 알고리즘의 수렴성을 확립하기 위해.
명시적 및 암시적 업데이트를 모두 포함한 비제약 및 제약 조건이 있는 일반적인 확률적 보정 프레임워크를 제공하기 위해.
평균 한계 역학을 활용하여 i.i.d.가 아닌 잡음 과정, 예를 들어 마르코프 의존성까지 다룰 수 있도록 하기 위해.

제안 방법

확률적 보정의 한계 역학을 미분 포함으로 모델링: $ \dot{x}(t) \in F(x(t)) $, 여기서 $ F $ 는 클라크 일반화 그래디언트를 나타내는 다가우수 함수이다.
부드러운 확률적 보정에서 유도된 평균 한계 접근법을 비연속 케이스로 확장하여, ODE 대신 미분 포함을 사용한다.
다가우수 함수의 성격을 다루기 위해 경험 측도의 약한 수렴과 볼록 조합 부분수열을 활용한다.
수렴성 증명을 위해 미분 포함 이론과 $ L_1 $ 공간에서의 약한 컴acts성 결과를 적용한다.
일반화 그래디언트 사상의 상한 반연속성과 볼록-닫힘 값성을 통해 수렴성을 확립한다.
던포드-페티스 정리와 마줄의 보조정리를 활용하여 $ L_1 $ 에서 약하게 수렴하는 수열로부터 거의 everywhere 수렴 부분수열을 추출한다.

실험 결과

연구 질문

RQ1전통적인 ODE 방법을 비연속적이며 비볼록 문제로 확장할 수 있는가?
RQ2목적 함수가 국소 리프시츠이지만 비가능한 경우, 확률적 하향 방법이 어떤 조건에서 수렴하는가?
RQ3비연속 목표 함수를 가진 확률적 보정의 한계 역학은 일반 미분방정식을 초월하여 어떻게 특징지을 수 있는가?
RQ4이 프레임워크는 제약 조건이 있는가 없는가에 관계없이 명시적 및 암시적 업데이트 규칙을 모두 다룰 수 있는가?
RQ5희소성 유도 페널티를 가진 확률적 프록시멀 그래디언트 방법의 수렴을 보장하는 조건은 무엇인가?

주요 결과

비연속적인 확률적 보정의 한계 역학은 $ \dot{x}(t) \in F(x(t)) $ 로 특징지어지며, 여기서 $ F(x) = \overline{\partial}f(x) $ 는 클라크 일반화 그래디언트이다.
목적 함수의 국소 리프시츠 연속성과 적절한 스텝 사이즈 규칙이 만족될 경우, 확률적 하향 알고리즘의 수렴성이 미약한 조건 하에서도 확립된다.
이 프레임워크는 비제약 및 제약 조건이 있는 문제 모두에 적용 가능하며, 암시적 업데이트를 포함한다.
수렴 결과는 고차원 희소 추정 및 비연속 정규화를 가진 딥러닝에서 사용되는 확률적 프록시멀 그래디언트 방법으로까지 확장된다.
잡음 과정 $ \xi_k $ 가 i.i.d. 가 아니더라도, 예를 들어 마르코프 또는 종속적인 표본 추출 설정에서도 분석이 유지된다.
반복값의 볼록 조합 부분수열이 거의 모든 곳에서 미분 포함의 해로 수렴하므로, 수렴 분석의 강건성을 보장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.