[논문 리뷰] How Good is the Bayes Posterior in Deep Neural Networks Really?
논문은 베이즈 사후 예측이 심층 신경망에서 SGD를 밑돌 수 있으며, 차갑 포스터리어(T<1)가 종종 예측 성능을 크게 향상시킴을 보여주고; 설명과 SG-MCMC 정확성에 대한 진단을 제공합니다.
During the past five years the Bayesian deep learning community has developed increasingly accurate and efficient approximate inference procedures that allow for Bayesian inference in deep neural networks. However, despite this algorithmic progress and the promise of improved uncertainty quantification and sample efficiency there are---as of early 2020---no publicized deployments of Bayesian neural networks in industrial practice. In this work we cast doubt on the current understanding of Bayes posteriors in popular deep neural networks: we demonstrate through careful MCMC sampling that the posterior predictive induced by the Bayes posterior yields systematically worse predictions compared to simpler methods including point estimates obtained from SGD. Furthermore, we demonstrate that predictive performance is improved significantly through the use of a "cold posterior" that overcounts evidence. Such cold posteriors sharply deviate from the Bayesian paradigm but are commonly used as heuristic in Bayesian deep learning papers. We put forward several hypotheses that could explain cold posteriors and evaluate the hypotheses through experiments. Our work questions the goal of accurate posterior approximations in Bayesian deep learning: If the true Bayes posterior is poor, what is the use of more accurate approximations? Instead, we argue that it is timely to focus on understanding the origin of the improved performance of cold posteriors.
연구 동기 및 목표
- 깊은 신경망에서 베이즈 포스터리어 예측이 SGD 기반 예측과 일치하거나 이를 능가하는지 평가한다.
- T<1인 온도 조절 포스터리어가 베이즈 포스터리어를 넘는 예측 성능을 개선할 수 있음을 보여준다.
- 차가운 포스터리에 대한 가설을 체계적으로 평가하고 SG-MCMC 정확성에 대한 진단을 개발한다.
- 딥러닝에서 베이시안 포스터리어가 유용할 때를 이해하기 위한 실용적 지침과 진단을 제공한다.
제안 방법
- Langevin 동역학과 SG-MCMC를 사용하여 p(θ|D)를 근사하는 포스터리어 샘플링을 수식화한다.
- ResNet-20/CIFAR-10 및 CNN-LSTM/IMDB 과제에서 베이즈 포스터리어 예측을 SGD 학습 baselines와 비교한다.
- 온도 T<1로 포스터리를 완화하여 차갑운 포스터리를 만들고 최적 범위를 식별한다(예: T<<1).
- 운동온도 및 구성온도를 포함한 SG-MCMC 정확성 진단을 도입하고 적용한다.
- 사전 조건화와 순환 시간 스텝을 사용하여 SG-MCMC 시뮬레이션 정밀도를 향상시키고, 이산화 스텝 h를 SGD 매개변수와 연결한다.
실험 결과
연구 질문
- RQ1표준 딥러닝 벤치마크에서 T=1의 베이즈 포스터리어 예측이 SGD 기반 모델과 동일하거나 더 나쁘게 수행되는가?
- RQ2T<1의 차갑 포스터리가 더 나은 예측 성능을 보이는가, 그리고 최적의 온도 범위는 무엇인가?
- RQ3차가운 포스터리오 현상을 설명할 수 있는 가설은 무엇이며, 어떤 진단이 추론 이슈를 사전 또는 가능도 효과와 구분할 수 있는가?
- RQ4SG-MCMC 방법이 의도된 포스터리를 정확히 근사하는가, 미니배치 노이즈나 이산화 등의 요인이 결과에 어떻게 영향을 미치는가?
- RQ5사전 및 데이터 처리(예: 데이터 증강, 드롭아웃)가 딥넷에서의 베이즈 포스터리에 어떤 영향을 미치는가?
주요 결과
- T=1의 베이즈 포스터리어 예측은 ResNet-20/CIFAR-10 및 CNN-LSTM/IMDB 과제에서 SGD보다 성능이 떨어진다.
- 온도 T<1은 현저히 더 나은 예측 성능을 제공하며, 최적 범위가 대개 1 이하에 있으며 (예: IMDB의 경우 0.01–0.2까지, 일부 실험에서 CIFAR-10의 경우 10^-4까지 하향).
- 사전조건화와 순환 시간 스텝을 가진 SG-MCMC가 포스터리를 정확히 시뮬레이션할 수 있어 차가운 포스터리오 현상의 설명으로 추론 정확성만으로는 충분치 않음을 지지한다.
- 열악한 사전이나 가능도 위반에 의한 편향이 모델과 데이터셋 전반에서 차가운 포스터리오 효과를 충분히 설명하지는 않는다.
- 사전 예측 분석은 표준 Normal 사전(N(0,I))이 대형 네트워크에 대해 지나치게 정보가 많을 수 있음을 시사하며, 사전 선택이 포스터리어 동작에 영향을 준다.
- 대체 포스터리어 개념들(예: Masegosa 포스터리어)이 잘못가정하에서 Bayes 포스터리어보다 더 견고한 목표를 제시할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.