QUICK REVIEW

[논문 리뷰] What Are Bayesian Neural Network Posteriors Really Like?

Pavel Izmailov, Sharad Vikram|arXiv (Cornell University)|2021. 04. 29.

Gaussian Processes and Bayesian Inference참고 문헌 66인용 수 71

한 줄 요약

논문은 현대 아키텍처에서 전체 배치 해밀토니안 몬테카를로(HMC)를 사용해 진짜 베이지안 신경망 포스터리어를 연구하고, BNN이 표준 학습과 앙상블보다 우수할 수 있음을 보여주며, priors, tempering, 도메인 이동 및 SGMCMC 및 심층 앙상블과의 비교에 대해 미묘한 인사이트를 제시합니다.

ABSTRACT

The posterior over Bayesian neural network (BNN) parameters is extremely high-dimensional and non-convex. For computational reasons, researchers approximate this posterior using inexpensive mini-batch methods such as mean-field variational inference or stochastic-gradient Markov chain Monte Carlo (SGMCMC). To investigate foundational questions in Bayesian deep learning, we instead use full-batch Hamiltonian Monte Carlo (HMC) on modern architectures. We show that (1) BNNs can achieve significant performance gains over standard training and deep ensembles; (2) a single long HMC chain can provide a comparable representation of the posterior to multiple shorter chains; (3) in contrast to recent studies, we find posterior tempering is not needed for near-optimal performance, with little evidence for a "cold posterior" effect, which we show is largely an artifact of data augmentation; (4) BMA performance is robust to the choice of prior scale, and relatively similar for diagonal Gaussian, mixture of Gaussian, and logistic priors; (5) Bayesian neural networks show surprisingly poor generalization under domain shift; (6) while cheaper alternatives such as deep ensembles and SGMCMC methods can provide good generalization, they provide distinct predictive distributions from HMC. Notably, deep ensemble predictive distributions are similarly close to HMC as standard SGLD, and closer than standard variational inference.

연구 동기 및 목표

진짜 베이지안 포스트리어가 표준 학습 및 심층 앙상블보다 이점을 제공하는지 여부를 조사합니다.
다중 체와 단일 긴 HMC 체가 포스터리어를 얼마나 잘 근사하는지 평가합니다.
BNN 성능에서 포스터리어 온도(차가운 포스터리어 대 따뜻한 포스터리어)의 역할을 검토합니다.
도메인 이동에 대한 강건성과 HMC와 더 저가의 추론 방법 간의 비교를 평가합니다.
전체 배치 HMC 배치 및 향후 학습을 위한 리소스 공유 등 실용적 지침을 제공합니다.

제안 방법

ResNet-20-FRN 및 CNN-LSTM과 같은 아키텍처에서 BNN 포스터리어를 샘플링하기 위해 전체 배치 해밀토니안 몬테카를로(HMC)를 적용합니다.
SPDM 설정에서 수백 개의 TPU 디바이스에 걸쳐 샘플링을 병렬화하여 전체 배치 그래디언트를 처리합니다.
좋은 믹싱과 수락 비율을 달성하기 위해 트레이젝토리 길이, 스텝 크기, 체의 수와 같은 HMC 하이퍼파라미터를 조정합니다.
가중치 공간과 함수 공간의 포스터리어 기하를 시각화하고 분석하여 믹싱과 모드 연결성을 이해합니다.
HMC와 SGLD, MFVI, SGD 및 심층 앙상블을 분류 및 회귀 벤치마크에서 비교합니다.
예측 성능, 로그 가능도, 보정 오차 및 분포 외 탐지 지표를 평가합니다.

실험 결과

연구 질문

RQ1단일 긴 HMC 체가 여러 짧은 체에 비해 포스터리어 표현을 유사하게 제공하는가?
RQ2진짜 포스트리어를 가진 베이지안 신경망이 표준 학습 및 심층 앙상블보다 정확도와 보정된 불확실성에서 우수한가?
RQ3최적 성능에 가까워지려면 포스터리어 온도(차가운 대 T<1)가 필요한가?
RQ4디폴트 대비 prior 선택(대각 가우시안, 가우시안 혼합, 로지스틱) 및 prior 스케일에 대해 BMA 예측이 얼마나 robust한가?
RQ5HMC로 학습된 BNN은 도메인 이동 및 이상치 설정에서 일반화가 어떻게 나타나는가? 대안과 비교하여?

주요 결과

전체 배치 HMC를 통해 얻은 BNN은 CIFAR-10 및 IMDB에서 정확도와 로그 가능도 측면에서 표준 학습 및 심층 앙상블을 능가할 수 있다.
단일 긴 HMC 체가 다중 짧은 체와 비교 가능한 포스터리어 표현을 제공하여 예측 성능을 달성할 수 있다.
포스터리어 온도 T=1에서 거의 최적의 성능을 위해 차가운 포스터리어가 필요하지 않으며, 이 연구 설정에서 차가운 포스터리어 효과에 대한 증거가 작다.
베이지안 모델 평균화(BMA)는 사전 선택 및 스케일에 대해 강건하다; 대각 가우시안, 가우시안 혼합, 로지스틱 사전은 아키텍처를 더 많이 제어하는 쪽이 포리에 비해 비슷한 BMA 성능을 보인다.
BNN은 도메인 내 성능은 우수하지만 공변량 이동에 따른 일반화가 의외로 약하다; 심층 앙상블과 SGMCMC는 잘 일반화되지만 HMC와는 예측 분포가 뚜렷이 다르다.
심층 앙상블과 SGLD는 HMC에 비교적 근접한 예측 분포를 제공할 수 있으며, 일부 설정에서 표준 분산 추정보다 우수한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.