QUICK REVIEW

[논문 리뷰] Noisy Natural Gradient as Variational Inference

Guodong Zhang, Shengyang Sun|arXiv (Cornell University)|2017. 12. 06.

Machine Learning and Algorithms참고 문헌 38인용 수 28

한 줄 요약

이 논문은 베이지안 신경망을 위한 변분 추론 방법으로 노이즈가 있는 자연 경사 하강법을 소개하며, 최적화 과정에서 적응형 가중치 노이즈가 ELBO를 최대화하는 방식으로 변분 사후 분포에 대해 자연 경사 하강법을 암묵적으로 수행함을 보여준다. 이는 K-FAC와 Adam의 노이즈 버전을 사용하여 전체 공분산 행렬의 가우시안 사후 분포를 효율적으로 학습할 수 있게 하며, 예측 분산이 해밀토니안 몬테카를로(Hamiltonian Monte Carlo)와 매우 유사하게 유지되고, 주도적 학습과 강화 학습에서 탐색 성능을 향상시킨다.

ABSTRACT

Variational Bayesian neural nets combine the flexibility of deep learning with Bayesian uncertainty estimation. Unfortunately, there is a tradeoff between cheap but simple variational families (e.g.~fully factorized) or expensive and complicated inference procedures. We show that natural gradient ascent with adaptive weight noise implicitly fits a variational posterior to maximize the evidence lower bound (ELBO). This insight allows us to train full-covariance, fully factorized, or matrix-variate Gaussian variational posteriors using noisy versions of natural gradient, Adam, and K-FAC, respectively, making it possible to scale up to modern-size ConvNets. On standard regression benchmarks, our noisy K-FAC algorithm makes better predictions and matches Hamiltonian Monte Carlo's predictive variances better than existing methods. Its improved uncertainty estimates lead to more efficient exploration in active learning, and intrinsic motivation for reinforcement learning.

연구 동기 및 목표

자연 경사 최적화와 베이지안 신경망의 사후 분포에 대한 변분 추론을 연결하는 것.
변분 사후 근사에서 계산 비용과 표현력 사이의 상충 관계를 해결하는 것.
비용이 많이 들지 않는 추론 절차 없이도 전체 공분산 및 행렬형 가우시안 사후 분포를 효과적으로 학습할 수 있는 확장 가능한 방법을 개발하는 것.
주도적 학습과 강화 학습에서 내재된 동기 부여를 위한 임의의 작업에 대한 불확실성 추정을 향상시키는 것.

제안 방법

정확한 피셔 정보 행렬을 사용하여 최적화 과정에서의 적응형 가중치 노이즈를 변분 사후 분포에 대한 자연 경사 하강법으로 재해석한다.
가중치 갱신과 피셔 정보 행렬 추정을 모두 자연 경사 하강 단계로 포함하는 통합된 증거 하한(lower bound, ELBO)를 유도한다.
행렬형 가우시안 사후 분포를 위한 노이즈가 있는 K-FAC와 완전 분해된 가우시안 사후 분포를 위한 노이즈가 있는 Adam을 효율적인 알고리즘으로 제안한다.
가우시안 분포에 대한 Opper-Archambeau 기울기 추정기를 사용하여 ELBO의 사후 분포 매개변수에 대한 기울기를 계산한다.
재구성 기법과 경로 기반 도함수를 활용하여 변분 사후 분포의 미분 가능 학습을 가능하게 한다.
상관된 가중치 노이즈와 함께 크로네커 곱으로 근사된 곡률 정보를 활용하여 현대적인 컨볼루션 신경망에 스케일링할 수 있도록 한다.

실험 결과

연구 질문

RQ1적응형 가중치 노이즈를 사용한 자연 경사 최적화는 베이지안 신경망 사후 분포에 대한 변분 추론으로 해석될 수 있는가?
RQ2비용이 많이 드는 추론 절차 없이도 전체 공분산 및 행렬형 가우시안 사후 분포를 어떻게 효율적으로 학습할 수 있는가?
RQ3노이즈가 있는 자연 경사 하강법은 표준 벤치마크에서 해밀토니안 몬테카를로의 예측 불확실성과 유사한가?
RQ4향상된 불확실성 추정은 주도적 학습과 강화 학습에서 더 효율적인 탐색으로 이어지는가?
RQ5기본적인 최적화 알고리즘인 Adam과 K-FAC는 노이즈 주입을 통해 변분 추론을 수행하도록 어떻게 적응시킬 수 있는가?

주요 결과

노이즈가 있는 K-FAC 알고리즘은 기존 방법보다 해밀토니안 몬테카를로와 더 강하게 상관관계를 가지는 예측 분산을 달성했으며, 보스턴 주택 데이터셋에서 피어슨 상관계수 0.92를 기록했다.
NNG-MVG와 NNG-BlkTri는 HMC의 예측 분산을 가장 잘 따라했으며, NNG-BlkTri는 더 유연한 사후 분포 덕분에 略적으로 더 뛰어난 성능을 보였다.
주도적 학습에서는 NNG-MVG_A가 랜덤 선택(NNG-MVG_R)보다 낮은 테스트 RMSE를 기록했고, 대부분의 데이터셋에서 PBP_A와 NNG-FFG_A를 능가했다.
내재된 동기 부여가 있는 강화 학습에서, 다이내믹스 네트워크의 사후 분포를 NNG-MVG로 교체함으로써 세 가지 연속 제어 과제에서 탐색 효율성이 크게 향상되었다.
가우시안 노이즈 기반 베이스라인은 동일한 과제에서 학습에 실패했고, NNG-MVG를 사용한 VIME는 기존 베이스라인과 원래의 Bayes-by-Backprop를 사용한 VIME보다 뛰어난 성능을 보였다.
이 방법은 K-FAC 유사 곡률 근사와 상관된 노이즈를 활용하여 전체 공분산 사후 분포를 GPU 친화적인 방식으로 학습할 수 있도록 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.