Skip to main content
QUICK REVIEW

[논문 리뷰] On the Expressiveness of Approximate Inference in Bayesian Neural Networks

Andrew Y. K. Foong, David R. Burt|arXiv (Cornell University)|2019. 09. 02.
Gaussian Processes and Bayesian Inference참고 문헌 65인용 수 43
한 줄 요약

이 연구는 베이지안 신경망에서 평균장 변분 추론(평균장)과 몬테카를로 드롭아웃(MC dropout)을 분석하고, 단일 은닉층 네트에서 근본적 한계와 더 깊은 네트에서의 부분적 만능성을 보이며, 실무에서도 경험적 병리현상이 지속됨을 보여준다.

ABSTRACT

While Bayesian neural networks (BNNs) hold the promise of being flexible, well-calibrated statistical models, inference often requires approximations whose consequences are poorly understood. We study the quality of common variational methods in approximating the Bayesian predictive distribution. For single-hidden layer ReLU BNNs, we prove a fundamental limitation in function-space of two of the most commonly used distributions defined in weight-space: mean-field Gaussian and Monte Carlo dropout. We find there are simple cases where neither method can have substantially increased uncertainty in between well-separated regions of low uncertainty. We provide strong empirical evidence that exact inference does not have this pathology, hence it is due to the approximation and not the model. In contrast, for deep networks, we prove a universality result showing that there exist approximate posteriors in the above classes which provide flexible uncertainty estimates. However, we find empirically that pathologies of a similar form as in the single-hidden layer case can persist when performing variational inference in deeper networks. Our results motivate careful consideration of the implications of approximate inference methods in BNNs.

연구 동기 및 목표

  • 일반적인 가중치 공간 근사(MFVI 및 MCDO)가 BNN의 베이지안 예측 분포를 얼마나 잘 포착하는지 평가한다.
  • 단일 은닉층 네트워크에서 MFVI와 MCDO의 함수 공간 한계를 특징짓는다.
  • 이 근사들을 이용한 더 깊은 네트워크에서 평균 및 분산 함수에 대한 만능성 결과를 확립한다.
  • 근사 추론의 병리현상을 실험적으로 제시하고, 정확한 추론(HMC/GP)과의 대조를 제공한다.

제안 방법

  • MFVI 및 MCDO 하에서 1HL ReLU 네트워크의 기능 공간에서 BNN 출력의 분산을 이론적으로 분석한다(정리 1 및 2).
  • MFVI 및 MCDO를 사용한 2HL 이상 네트워크에서 평균 및 분산 함수에 대한 보편적 근사 결과를 보인다(정리 3).
  • 참조로 무한 폭 GP 및 HMC를 이용한 정확한 추론과의 예측을 비교한다.
  • 데이터 간 간극의 불확실성 병리와 얕은 네트에서의 과신을 실험적으로 확인한다(그림 3, 그림 5).
  • 실용적 영향력을 평가하기 위한 Naval 회귀의 활성 학습 사례 연구를 수행한다.

실험 결과

연구 질문

  • RQ1단일 은닉층 BNN에서 평균장 가우시안 및 MC dropout 근사가 정확한 포스트에측 불확실성을 충실히 표현할 수 있는가?
  • RQ2얕은 근사에서 관찰되는 중간 불확실성 병리구현이 더 깊은 네트워크에서 완화되거나 제거되는가?
  • RQ3ELBO를 최적화할 때 평균/분산 함수에 대한 보편적 근사 결과가 실제로 좋은 예측 포스트eri어로 이어지는가?
  • RQ4가까운 추론의 병리현상이 정확한 추론(GP/HMC)과 비교하여 활성 학습 성능에 어떤 영향을 미치는가?

주요 결과

  • 1HL ReLU BNN에서 MFVI와 MCDO는 정확한 포스트eri어와 달리 잘 구분된 영역들 사이의 증가된 불확실성을 표현할 수 없다.
  • 이 근사들을 이용한 깊은 네트워크에서는 평균 및 분산 함수에 대한 보편적 근사 가능성이 존재하지만, 실제로 ELBO 최적화가 이를 실현하지 못할 수 있다.
  • 저차원 회귀에서 MFVI와 MCDO는 데이터 클러스터 사이의 병치에서 과신하고 정확한 추론(GP/HMC)보다 열등하다는 실증적 증거가 있다.
  • 근사 BNN을 활용한 활성 학습은 GP에 비해 크게 열등할 수 있으며, 내부 클러스터에서의 샘플링 실패를 유발한다.
  • 깊이가 도움이 된다: 2HL 이상에서 평균/분산 함수를 근사할 수 있지만, 깊은 네트워크에서도 VI 하의 병리현상이 얕은 경우와 유사하게 지속될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.