QUICK REVIEW

[논문 리뷰] Fast and Scalable Bayesian Deep Learning by Weight-Perturbation in Adam

Mohammad Emtiyaz Khan, Didrik Nielsen|arXiv (Cornell University)|2018. 06. 13.

Gaussian Processes and Bayesian Inference참고 문헌 39인용 수 60

한 줄 요약

이 논문은 가중치 평가 중에 가중치를 섭동하여 불확실성 추정치를 얻고, 기존 VI 방법들과 비슷한 품질의 불확실성 추정을 제공하며 탐색에 도움이 될 잠재력을 지닌 불확실성 추정치를 얻을 수 있도록 최소한의 코드 변경으로 Adam 안에서 Gaussian mean-field Bayesian deep learning을 구현할 수 있게 하는 자연-그래디언트 변분 방법을 제시합니다.

ABSTRACT

Uncertainty computation in deep learning is essential to design robust and reliable systems. Variational inference (VI) is a promising approach for such computation, but requires more effort to implement and execute compared to maximum-likelihood methods. In this paper, we propose new natural-gradient algorithms to reduce such efforts for Gaussian mean-field VI. Our algorithms can be implemented within the Adam optimizer by perturbing the network weights during gradient evaluations, and uncertainty estimates can be cheaply obtained by using the vector that adapts the learning rate. This requires lower memory, computation, and implementation effort than existing VI methods, while obtaining uncertainty estimates of comparable quality. Our empirical results confirm this and further suggest that the weight-perturbation in our algorithm could be useful for exploration in reinforcement learning and stochastic optimization.

연구 동기 및 목표

딥러닝에서 안전한 의사결정을 위한 불확실성 추정의 필요성에 대한 동기 부여.
Adam과 같은 기존 적응 최적화기와의 통합이 용이한 VI 방법 개발.
대규모 신경망에서 Gaussian mean-field VI의 메모리, 계산 및 구현 비용 절감.
강화 학습 및 확률적 최적화에서 탐색을 돕는 가중치 섭동에 의한 불확실성 추정 제공

제안 방법

Gaussian mean-field VI를 위한 자연-그래디언트 변분 추론(NGVI) 제안
gradient 평가 중 가중치를 섭동하여 최소한의 수정으로 Adam 안에 구현 가능하다는 것을 보임(Vadam)
NGVI의 근사(Variational Online-Newton, VON, Variational Online Gauss-Newton, VOGN) 업데이트를 도출하여 온라인 해시안 정보를 가능하게 함
Hessian 근사치로서 그래디언트 크기를 사용한 RMSprop 유사한 합리적 대체로서 Vprop(Variational RMSprop) 도입
natural-모멘텀을 자연 매개변수 공간에서 추가하여 Adam과 유사한 업데이트를 제공하는 Variational Adam(Vadam) 개발
VI를 변분 최적화(VO) 설정에서 프레이밍하고 해당 업데이트를 도출하여 Variational AdaGrad(VadaGrad)로 확장

실험 결과

연구 질문

RQ1가우시안 평균장의 모델에 대한 변분 추론이 Adam을 사용하여 MLE만큼의 간단함과 효율로 구현될 수 있는가?
RQ2gradient 평가 중 가중치 섭동이 전통적인 VI보다 더 낮은 메모리와 계산 비용으로 신뢰할 수 있는 불확실성 추정치를 제공하는가?
RQ3제안된 근사들(VON, VOGN, Vprop, Vadam, VadaGrad)이 표준 딥러닝 코드베이스 내에서 안정성과 실용성 측면에서 어떻게 비교되는가?
RQ4생성된 불확실성 추정치를 강화 학습 및 확률적 최적화에서 탐색을 개선하는 데 활용할 수 있는가?

주요 결과

가중치 섭동을 Adam 내부에서 얻은 불확실성 추정치는 기존의 VI 방법들과 품질이 비슷하다.
제안된 근사들이 전통적인 VI 접근법에 비해 메모리, 계산, 구현 노력을 더 적게 요구하면서 VI를 가능하게 한다.
Vadam은 자연-모멘텀을 포함한 Adam과 유사한 업데이트를 제공하여 기존 코드베이스에의 통합을 용이하게 한다.
Vprop은 가중치 섭동과 불확실성 보유 섭동 분산을 갖는 실제적 RMSprop 유사 방법을 제공한다.
GM 기반 근사(VOGN, Vprop)는 소배치 크기에 따라 예측 가능한 바이어스를 가지며 정확성과 효율 사이의 트레이드를 알려준다.
실험적 결과는 가중치 섭동이 강화 학습 및 확률적 최적화에서 탐색에 도움이 될 수 있음을 시사한다

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.