Skip to main content
QUICK REVIEW

[논문 리뷰] Bayesian Deep Learning and a Probabilistic Perspective of Generalization

Andrew Gordon Wilson, Pavel Izmailov|arXiv (Cornell University)|2020. 02. 20.
Gaussian Processes and Bayesian Inference참고 문헌 81인용 수 182
한 줄 요약

이 논문은 베이지안 주변화를 통해 딥러닝의 일반화 문제를 재구성하고, 딥 엔스탬블과 멀티모달 주변화(MultiSWAG)가 다수의 attraction basins에 걸쳐 베이지안 예측 분포를 근사함으로써 예측 정확도와 보정(calibration)을 개선한다는 점을 보여준다.

ABSTRACT

The key distinguishing property of a Bayesian approach is marginalization, rather than using a single setting of weights. Bayesian marginalization can particularly improve the accuracy and calibration of modern deep neural networks, which are typically underspecified by the data, and can represent many compelling but different solutions. We show that deep ensembles provide an effective mechanism for approximate Bayesian marginalization, and propose a related approach that further improves the predictive distribution by marginalizing within basins of attraction, without significant overhead. We also investigate the prior over functions implied by a vague distribution over neural network weights, explaining the generalization properties of such models from a probabilistic perspective. From this perspective, we explain results that have been presented as mysterious and distinct to neural network generalization, such as the ability to fit images with random labels, and show that these results can be reproduced with Gaussian processes. We also show that Bayesian model averaging alleviates double descent, resulting in monotonic performance improvements with increased flexibility. Finally, we provide a Bayesian perspective on tempering for calibrating predictive distributions.

연구 동기 및 목표

  • 모델 지원과 인덕티브 바이어스에 기초한 일반화에 대한 확률적 관점을 제시한다.
  • 모델 간의 주변화가 단일 가중치 최적화보다 더 나은 예측 분포를 제공한다고 주장한다.
  • 딥 엔스탬블이 베이지안 주변화를 근사하는 방법으로 작용한다는 점을 보여주고, 매력점의 유입구(base of attraction) 내에서 주변화를 제안한다.
  • 가중치 사전에 의해 함수에 유도된 사전이 일반화 현상과 무작위 레이블에 대한 신비로운 결과를 어떻게 설명하는지 보여준다.

제안 방법

  • 일반화를 모델 지원과 인덕티브 바이어스로 이차원 개념으로 프레이밍한다.
  • 베이지안 모델 평균화(BMA)를 정의하고 이를 가중치에 대한 주변화와 연관시킨다.
  • 딥 엔스탬블을 매력점의 분포를 다양성으로 포착하는 근사 BMA로 해석한다.
  • MultiSWAG를 도입하여 여러 SWAG 베이스를 가우시안 혼합으로 모으는 다모드 포스터리어 근사를 제시한다.
  • 함수 공간의 다양성과 예측 보정에 초점을 맞추어 주변화 접근법과 전통적인 몬테카를로 및 변분 방법을 비교한다.

실험 결과

연구 질문

  • RQ1신경망 매개변수에 대한 주변화가 단일 지점 최적화에 비해 예측 정확도와 보정에 어떤 영향을 미치는가?
  • RQ2딥 엔스탬블이 실용적 근사로서의 베이지안 모델 평균화를 베이지안 추론과 어떻게 조화시킬 수 있는가?
  • RQ3다모드 주변화(MultiSWAG)가 단일 베이스 방법 및 표준 앙상블에 비해 성능을 개선하는가, 특히 분포 변화 하에서?
  • RQ4일반적인 가중치 사전에 의해 유도된 함수에 대한 사전은 어떤 인덕티브 바이어스를 가지며, 일반화와 무작위 레이블에 맞추는 능력에 어떤 영향을 주는가?
  • RQ5템퍼링이 베이지안 딥 러닝의 보정 및 예측 불확실성에 어떤 영향을 미치는가?

주요 결과

  • 딥 엔스탬블은 베이지안 주변화를 근사하고 다양한 매력점의 분포를 나타내어 보정과 정확도를 향상시킨다.
  • 다모드 주변화(MultiSWAG)는 단일 베이스 접근 및 표준 앙상블에 비해 특히 잡음 및 분포 변화에서 상당한 이득을 준다.
  • 다모드 포스트리어를 갖춘 베이지안 모델 평균화는 이중 하강 현상을 완화하고 모델의 유연성이 증가함에 따라 단조로운 개선을 가져온다.
  • 가중치 사전에 의해 함수에 유도된 사전은 합리적인 인덕티브 바이어스를 가질 수 있으며, 이를 통해 깨끗한 데이터에서 일반화를 잃지 않고 무작위 레이블에 맞출 수 있는 현상 등을 설명한다.
  • 가우시안 과정을 통해 일부 신경망과 유사한 일반화 현상을 재현할 수 있으며, 이는 네트워크에 특유한 것이 아니라 큰 지지대와 적절한 인덕티브 바이어스를 가진 함수 분포에서 비롯된다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.