Skip to main content
QUICK REVIEW

[논문 리뷰] The promises and pitfalls of Stochastic Gradient Langevin Dynamics

Nicolas Brosse, Alain Durmus|arXiv (Cornell University)|2018. 11. 25.
Quantum many-body systems인용 수 47
한 줄 요약

본 논문은 상수 스텝 크기를 갖는 SGLD를 분석하여 불변분포가 데이터 크기가 커질수록 후방 분포와 달라질 수 있음을 보이고, Wasserstein 거리와 모먼트 전개를 사용하여 SGLDFP, LMC, SGD와 대조한다.

ABSTRACT

Stochastic Gradient Langevin Dynamics (SGLD) has emerged as a key MCMC algorithm for Bayesian learning from large scale datasets. While SGLD with decreasing step sizes converges weakly to the posterior distribution, the algorithm is often used with a constant step size in practice and has demonstrated successes in machine learning tasks. The current practice is to set the step size inversely proportional to $N$ where $N$ is the number of training samples. As $N$ becomes large, we show that the SGLD algorithm has an invariant probability measure which significantly departs from the target posterior and behaves like Stochastic Gradient Descent (SGD). This difference is inherently due to the high variance of the stochastic gradients. Several strategies have been suggested to reduce this effect; among them, SGLD Fixed Point (SGLDFP) uses carefully designed control variates to reduce the variance of the stochastic gradients. We show that SGLDFP gives approximate samples from the posterior distribution, with an accuracy comparable to the Langevin Monte Carlo (LMC) algorithm for a computational cost sublinear in the number of data points. We provide a detailed analysis of the Wasserstein distances between LMC, SGLD, SGLDFP and SGD and explicit expressions of the means and covariance matrices of their invariant distributions. Our findings are supported by limited numerical experiments.

연구 동기 및 목표

  • 대규모 데이터셋에서 확장 가능한 베이지안 학습을 위해 SGLD 사용을 동기 부여한다.
  • N이 커짐에 따라 일정 스텝 SGLD가 실제 포스터리어에 비해 어떻게 동작하는지 특성화한다.
  • Wasserstein 거리와 모멘트를 사용하여 SGLD를 SGLDFP 같은 변형과 Langevin Monte Carlo(LMC), SGD와 비교한다.
  • SGLD가 포스터리어를 근사하는 시점과 그렇지 않은 시점에 대한 실용적 지침을 제공한다.

제안 방법

  • 타깃 포스터리어를 Langevin 확산의 불변분포로 모델링한다.
  • 미니배치 기울기 추정기를 사용하는 LMC, SGLD, SGLDFP를 정의하기 위해 Euler 이산화를 사용한다.
  • Wasserstein 거리 경계를 도출하기 위해 U 및 U_i에 대한 가정을 (기울기 Lipschitz, 강강정도, 볼록성) 설정한다.
  • LMC, SGLDFP, SGLD, SGD의 주변 분포와 대응하는 불변분포 간의 W2 거리에 대한 상한선을 유도한다.
  • 섭동 분석(H, G, K 행렬)을 통해 불변분포의 평균과 공분산에 대한 명시적 표현을 제공한다.
  • 모의 데이터와 Covertype 유사 데이터셋에 대한 제한된 수치 실험으로 이론적 결과를 보강한다.

실험 결과

연구 질문

  • RQ1N이 커짐에 따라 LMC, SGLDFP, SGLD, SGD의 불변분도가 타깃 포스터리어 π에 얼마나 근접해 있는가?
  • RQ2상수 스텝 크기하에서 이 알고리즘들의 주변 분포 간 Wasserstein 거리는 어떻게 변하는가?
  • RQ3제어변수(SGLDFP)가 데이터 크기에 대해 sublinear 비용으로 근사 포스터리어 샘플을 복원할 수 있는가?
  • RQ4불변분도의 평균과 공분산 차이가 π에 대해 어떤지, 그리고 그것이 N과 γ에 대해 어떻게 스케일하는가?
  • RQ5어떤 조건에서 SGLD가 후방 분포보다는 SGD에 비슷해지는가?

주요 결과

  • LMC와 SGLDFP의 불변분주가 N이 커짐에 따라 포스터리어 π에 가까워지며, SGLDFP의 샘플링 비용은 N에 대해 sublinear이다.
  • SGLD의 불변분구는 N이 커져도 π에서 멀리 남아 있으며, 부분샘플링으로 인한 큰 기울기 분산으로 SGD와 유사하다.
  • Wasserstein 경계는 수렴 속도와 비용 트레이드를 보여주며, LMC는 W2에서 ε 정확도를 달성하는 비용이 대략 N에 비례하고, SGLDFP는 N에 대해 sublinear임을 시사한다.
  • 평균/공분산 전개는 LMC와 FP의 편향과 공분산이 Θ(1/N)임을, 반면 SGLD/SGD의 편향은 Θ(η)이며 η = γN일 때 주어진 점근하에서 그렇다.
  • 이론적 결과는 베이지안 로지스틱 회귀 및 대규모 데이터셋에 대한 시뮬레이션으로 설명되며 기울기 분산 특성과 테스트 세트 성능 차이를 부각한다.
  • SGLD 편향을 완화하는 전략(예: γ 및 p 조정 또는 제어변수 사용)이 포스터리어 샘플링에 근접하게 하는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.