QUICK REVIEW

[논문 리뷰] The Case for Bayesian Deep Learning

Andrew Gordon Wilson|arXiv (Cornell University)|2020. 01. 29.

Gaussian Processes and Bayesian Inference참고 문헌 41인용 수 66

한 줄 요약

The paper argues that marginalization over neural network weights (Bayesian model averaging) offers better calibration and accuracy for deep nets than standard optimization, with deep ensembles serving as approximate Bayesian marginalization and priors in function space encoding inductive biases.

ABSTRACT

The key distinguishing property of a Bayesian approach is marginalization instead of optimization, not the prior, or Bayes rule. Bayesian inference is especially compelling for deep neural networks. (1) Neural networks are typically underspecified by the data, and can represent many different but high performing models corresponding to different settings of parameters, which is exactly when marginalization will make the biggest difference for both calibration and accuracy. (2) Deep ensembles have been mistaken as competing approaches to Bayesian methods, but can be seen as approximate Bayesian marginalization. (3) The structure of neural networks gives rise to a structured prior in function space, which reflects the inductive biases of neural networks that help them generalize. (4) The observed correlation between parameters in flat regions of the loss and a diversity of solutions that provide good generalization is further conducive to Bayesian marginalization, as flat regions occupy a large volume in a high dimensional space, and each different solution will make a good contribution to a Bayesian model average. (5) Recent practical advances for Bayesian deep learning provide improvements in accuracy and calibration compared to standard training, while retaining scalability.

연구 동기 및 목표

딥 뉴럴 네트워크에서 최적화보다 우수한 대안으로서 베이지안 마진화를 동기화한다.
딥 앙상블이 베이지안 모델 평균화와 어떤 관련이 있으며 왜 근사적 마진화로 간주될 수 있는지 설명한다.
함수 공간에서의 프라이어의 중요성과 신경망 아키텍처의 귀납 편향을 주장한다.
MAP 학습과 대조하면서 확장 가능한 베이지안 딥러닝의 실용적인 진전과 도전을 강조한다.

제안 방법

예측 분포로서 Bayesian 모델 평균 p(y|x,D) = ∫ p(y|x,w) p(w|D) dw를 제시한다.
딥 네트워크가 불충분하게 정의되어 확산된 후방분포를 초래한다는 점을 주장하고, 마진화가 보정 및 정확도 향상에 도움을 준다.
딥 앙상블을 근사 후방 샘플과 연관시키고 모델 평균에서 중복을 피하기 위한 다양성을 강조한다.
구조화된 모델(CNN 등)에 의해 유도된 함수 공간 프라이어와 파라미터 공간 프라이어의 역할에 대해 논의한다.
고차원 후방을 다루기 위한 확장 가능한 베이지안 딥러닝 방법 및 기법(예: 앙상블에서 영감을 받은 방법, 부분공간 추론, MCMC)을 고찰한다.

실험 결과

연구 질문

RQ1전통적인 MAP 최적화와 비교했을 때 베이지안 마진화가 딥 뉴럴 네트워크의 보정 및 정확도에 어떤 영향을 미치는가?
RQ2딥 앙상블을 근사적 베이지안 마진화로 해석할 수 있는가, 그리고 효과의 조건은 무엇인가?
RQ3함수 공간 프라이어와 신경망의 귀납 편향이 베이지안 딥러닝에서 어떤 역할을 하는가?
RQ4딥 네트워크에서 베이지안 추론을 수행할 수 있는 확장 가능한 접근 방식은 무엇이며, 그것들의 실용적 이점과 한계는 무엇인가?

주요 결과

베이지안 모델 평균화는 인식적 불확실성을 포착하고 딥 네트에서 예측 보정 및 정확도를 향상시킨다.
딥 앙상블은 수렴 영역 전반에서 다양한 고성능 해를 탐색하여 베이지안 마진화를 근사한다.
CNN과 같은 구조에 의해 유도된 구조화된 함수 공간 프라이어는 일반화에 유익한 귀납 편향을 제공한다.
손실 지형의 평탄한 영역은 다양한 좋은 해에 해당하며, 고차원에서 베이지안 마진화의 효과를 높인다.
최근의 실용적 베이지안 딥러닝 방법은 정확도와 보정에서 개선을 제공하면서도 확장성을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.