QUICK REVIEW

[논문 리뷰] Stochastic Gradient Descent as Approximate Bayesian Inference

Stephan Mandt, Matthew D. Hoffman|arXiv (Cornell University)|2017. 04. 13.

Stochastic Gradient Optimization Techniques참고 문헌 39인용 수 108

한 줄 요약

본 논문은 상수 단계 SGD를 그 stationary 분포가 베이지안 사후를 근사할 수 있는 확률적 과정으로 재구성하고, 이를 위한 최적의 SGD 하이퍼파라미터를 도출하며, 모멘텀, 프리컨디셔닝 및 SGD 기반 MCMC 변형으로 관점을 확장한다.

ABSTRACT

Stochastic Gradient Descent with a constant learning rate (constant SGD) simulates a Markov chain with a stationary distribution. With this perspective, we derive several new results. (1) We show that constant SGD can be used as an approximate Bayesian posterior inference algorithm. Specifically, we show how to adjust the tuning parameters of constant SGD to best match the stationary distribution to a posterior, minimizing the Kullback-Leibler divergence between these two distributions. (2) We demonstrate that constant SGD gives rise to a new variational EM algorithm that optimizes hyperparameters in complex probabilistic models. (3) We also propose SGD with momentum for sampling and show how to adjust the damping coefficient accordingly. (4) We analyze MCMC algorithms. For Langevin Dynamics and Stochastic Gradient Fisher Scoring, we quantify the approximation errors due to finite learning rates. Finally (5), we use the stochastic process perspective to give a short proof of why Polyak averaging is optimal. Based on this idea, we propose a scalable approximate MCMC algorithm, the Averaged Stochastic Gradient Sampler.

연구 동기 및 목표

상수 SGD를 근사 posterior 샘플러로 간주하는 확률적 해석을 제공한다.
사후 분포에 대한 KL 발산을 최소화하도록 학습률과 프리컨디셔닝을 포함한 최적의 SGD 하이퍼파라미터를 도출한다.
모멘텀과 프리컨디셔닝이 근사 추론을 위한 정지 분포에 미치는 영향을 보여준다.
OU-프로세스 프레임워크를 사용하여 변분 EM 및 확장 가능한 MCMC 관점을 개발한다.
iterate averaging과 확률적 그래디언트 MCMC 알고리즘에 대한 시사점을 분석한다.

제안 방법

상수 학습률을 갖는 SGD를 다변수 Ornstein-Uhlenbeck 과정으로 지역 최적점 주위에서 모델링한다.
가우시안 그라디언트 노즈와 이차 형태의 로스를 가정하여 해석적 정지 분포를 얻는다.
정지 분포와 가우시안 사후 분포 사이의 KL 발산을 최소화하여 최적의 SGD 설정을 도출한다.
사후 분포 매칭을 개선하기 위해 프리컨디셔닝 행렬 및 대각 변형으로 확장한다.
모멘텀을 갖는 SGD를 OU 프레임워크에서 스케일된 공분산 변환으로 간주하여 근사 추론에 활용한다.
상수-SGD 기반의 사후를 BBVI와 비교하고 변분 EM 관점에서 하이퍼파라미타 최적화를 분석한다.

실험 결과

연구 질문

RQ1상수 SGD를 조정하여 매개변수에 대한 근사 베이즈 후분포를 얻을 수 있는가?
RQ2사후 분포에 대한 KL 발산을 최소화하도록 학습률과 프리컨디셔닝을 어떻게 선택해야 하는가?
RQ3정지 분포에 대한 모멘텀의 효과와 이를 근사 샘플링에 어떻게 활용할 수 있는가?
RQ4OU-프레임워크 하에서 확률적 기울기 MCMC 방법(SGLD, SGFS)은 SGD와 어떤 관련이 있으며 근사 오차는 무엇인가?
RQ5이 프레임워크 안에서 반복 평균화가 최적의 샘플링 특성을 제공할 수 있는가?

주요 결과

상수-SGD의 정지 분포는 가우시안이며 사후를 근사할 수 있으며, KL 발산이 최적 하이퍼파라미터를 안내한다.
Theorem 1은 KL-최적화를 위한 최적의 스칼라 학습률을 제시한다: epsilon* = 2S/N · D / Tr(BB^T).
Theorem 2는 정지 분포를 사후에 맞추기 위한 최적의 전체 프리컨디셔너 H* = (2S/N)(BB^T)^{-1}를 보이며, 대각 변형도 특징지어진다.
모멘텀은 정지 공분산을 스케일링하지만 형상은 보존하여 근사 샘플링을 가능하게 한다.
SG-MCMC 방법에 대해서는 OU-프레임워크 시야가 프리컨디셔닝을 최적으로 정당화하고 유한 학습률 오차를 명확히 하며, 반복 평균화는 거의 최적의 샘플러를 제공하지만 데이터 패스의 선형 비용을 수반한다.
반복 평균화는 특정 가정하에서 데이터 패스당 정확히 하나의 독립적으로 효과적인 샘플을 산출할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.