Skip to main content
QUICK REVIEW

[논문 리뷰] All You Need is a Good Functional Prior for Bayesian Deep Learning

Ba-Hien Tran, Simone Rossi|arXiv (Cornell University)|2020. 11. 25.
Gaussian Processes and Bayesian Inference참고 문헌 64인용 수 23
한 줄 요약

이 논문은 베이지안 딥러닝의 성능을 향상시키기 위해 신경망 가중치 사전분포를 사용자가 지정한 기능적 사전분포와 워샤르슈타인 거리 최소화를 통해 정렬하는 새로운 프레임워크를 제안한다. 파라미터 사전분포를 원하는 기능 공간 행동과 일치하도록 조정함으로써, 특히 가우시안 프로세스에 의해 유도된 사전분포를 통해 다양한 벤치마크에서 불확실성 정량화와 예측 정확도 측면에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

The Bayesian treatment of neural networks dictates that a prior distribution is specified over their weight and bias parameters. This poses a challenge because modern neural networks are characterized by a large number of parameters, and the choice of these priors has an uncontrolled effect on the induced functional prior, which is the distribution of the functions obtained by sampling the parameters from their prior distribution. We argue that this is a hugely limiting aspect of Bayesian deep learning, and this work tackles this limitation in a practical and effective way. Our proposal is to reason in terms of functional priors, which are easier to elicit, and to "tune" the priors of neural network parameters in a way that they reflect such functional priors. Gaussian processes offer a rigorous framework to define prior distributions over functions, and we propose a novel and robust framework to match their prior with the functional prior of neural networks based on the minimization of their Wasserstein distance. We provide vast experimental evidence that coupling these priors with scalable Markov chain Monte Carlo sampling offers systematically large performance improvements over alternative choices of priors and state-of-the-art approximate Bayesian deep learning approaches. We consider this work a considerable step in the direction of making the long-standing challenge of carrying out a fully Bayesian treatment of neural networks, including convolutional neural networks, a concrete possibility.

연구 동기 및 목표

  • 베이지안 신경망에서 가중치 사전분포가 의도하지 않은 인덕티브 편향을 유도하는 기능적 사전분포의 통제 불가 문제를 해결하기 위해.
  • 파rameter 사전분포에서 기능적 사전분포로의 초점을 이동시켜 베이지안 딥러닝에서 더 해석 가능하고 효과적인 사전분포 설정을 가능하게 하기 위해.
  • 원하는 분포(예: 가우시안 프로세스 사전분포)와 일치하도록 유도된 기능적 사전분포를 얻기 위한 실용적인 방법을 개발하기 위해.
  • 이 방법이 표준 사전분포와 기존의 근사 베이지안 방법보다 예측 성능과 불확실성 캘리브레이션 측면에서 뛰어나다는 것을 입증하기 위해.

제안 방법

  • 베이지안 신경망의 가중치 사전분포가 유도하는 기능적 사전분포(예: 가우시안 프로세스)와 목표 기능적 사전분포를 일치시키는 문제를 수식화한다.
  • 최적화의 목적함수로 유도된 기능적 사전분포와 목표 기능적 사전분포 간의 워샤르슈타인 거리를 사용한다.
  • 칸토로비치 이중성(duality)을 적용하여 워샤르슈타인 거리를 1-Lipschitz 함수에 대한 최대화 문제로 재구성함으로써 미분 가능한 최적화를 가능하게 한다.
  • 기능적 사전분포 분포를 통해 역전파가 가능한 워샤르슈타인 거리의 이중형식을 활용한다.
  • 가중치 사전분포의 초모수(예: 분산, 척도)를 최소화하여 목표 기능적 사전분포와의 워샤르슈타인 거리를 최소화하도록 최적화한다.
  • 조정된 파라미터 사전분포를 스케일러블 마르코프 체인 몬테카를로(MCMC) 샘플링과 조합하여 사후 추론을 수행한다.

실험 결과

연구 질문

  • RQ1베이지안 신경망의 가중치 사전분포가 유도하는 기능적 사전분포를 체계적으로 제어할 수 있는가?
  • RQ2가중치 사전분포의 초모수를 조정하여 원하는 기능적 사전분포(예: GP 사전분포)를 일치시킬 수 있는가?
  • RQ3기능적 사전분포 일치를 위한 워샤르슈타인 거리 기반 목적함수의 사용이 예측 성능와 불확실성 캘리브레이션에 어떤 영향을 미치는가?
  • RQ4이 방법이 표준 가우시안 사전분포와 최신 기술 수준의 근사 베이지안 딥러닝 방법보다 뛰어나게 성능을 발휘하는가?
  • RQ5이 프레임워크는 완전히 연결된 신경망과 컨볼루션 신경망 모두에 효과적으로 적용될 수 있는가?

주요 결과

  • 제안된 방법은 표준 가우시안 사전분포보다 다양한 비전 및 회귀 벤치마크에서 예측 성능을 크게 향상시킨다.
  • 조정된 기능적 사전분포는 더 낮은 음의 로그우도와 더 높은 예측 정확도를 보이며 불확실성 캘리브레이션을 향상시킨다.
  • 이 방법은 표준 사전분포와 고급 근사 추론 방법을 모두 초월하여 베이지안 딥러닝 분야에서 최신 기술 수준의 성능을 달성한다.
  • 워샤르슈타인 거리의 사용은 고차원 파rameter 공간에서도 기능적 사전분포 일치를 위한 안정적이고 강력한 최적화를 가능하게 한다.
  • 실험 결과, 이 방법은 깊은 신경망에서 발생하는 병적인 행동(예: 깊은 tanh 네트워크에서의 수평선 출력)을 효과적으로 완화함을 보였다.
  • 이 프레임워크는 완전히 연결된 신경망과 컨볼루션 신경망 모두에 일반화 가능하며, 아키텍처 간 일관된 성능 향상을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.