QUICK REVIEW

[논문 리뷰] Quality of Uncertainty Quantification for Bayesian Neural Network Inference

Jiayu Yao, Weiwei Pan|arXiv (Cornell University)|2019. 06. 24.

Gaussian Processes and Bayesian Inference참고 문헌 19인용 수 74

한 줄 요약

논문은 Bayesian 신경망의 10가지 추론 방법을 경험적으로 비교하여 불확실성 정량화의 질을 평가하며, 테스트 로그 가능도와 같은 일반 지표가 오도될 수 있고, 포스터리어를 더 잘 포착하는 방법이 항상 더 나은 포스터리어 근사를 제공하지 않는다는 것을 보여준다.

ABSTRACT

Bayesian Neural Networks (BNNs) place priors over the parameters in a neural network. Inference in BNNs, however, is difficult; all inference methods for BNNs are approximate. In this work, we empirically compare the quality of predictive uncertainty estimates for 10 common inference methods on both regression and classification tasks. Our experiments demonstrate that commonly used metrics (e.g. test log-likelihood) can be misleading. Our experiments also indicate that inference innovations designed to capture structure in the posterior do not necessarily produce high quality posterior approximations.

연구 동기 및 목표

베이지안 신경망에서 불확실성의 강건한 평가를 표준 예측 지표를 넘어 추구한다.
회귀 및 분류 작업에서 광범위한 근사 추론 방법을 비교한다.
다른 방법들이 진짜 포스터리어를 얼마나 잘 근사하는지, 그리고 그것이 예측 불확실성과 어떤 관련이 있는지 조사한다.
일반적인 불확실성 지표가 신뢰할 수 있는지 또는 오도하는지에 대한 가이드를 제공한다.

제안 방법

Ground-truth HMC와 대조하여 10가지 추론 방법(BBB, PBP, BB-ALPHA, MNF, MVG, BBH, Dropout, Ensemble, SGLD, SGHMC)을 평가한다.
포스트리오리어 예측 불확실성을 의미 있게 평가할 수 있는 합성의, 진짜 같은 데이터세트를 만든다.
고정 사전분포와 신경망을 사용하고(회귀의 경우 1개의 은닉층, 분류의 경우 2개의 은닉층) Adam으로 최적화하며, HMC/SGLD/SGHMC를 제외한다.
RMSE, 테스트 한계 로그 가능도(LogLL), 예측 간격 커버리지 확률(PICP), 예측 간격 폭의 평균(MPIW) 등 여러 지표를 통해 포스트리오리어 예측 품질을 평가한다.
로그 가능도와 보정 지표가 포스터리어 충실도의 부정확한 대리 지표일 수 있음을 주장하고, 이를 진짜 같은 실험으로 보여준다.

실험 결과

연구 질문

RQ1다양한 베이지안 신경망 추론 방법이 예측 불확실성 품질 면에서 어떻게 비교되는가?
RQ2일반적인 불확실성 지표가 모든 작업 및 데이터 구간에서 실제 포스터리어의 충실도를 신뢰성 있게 반영하는가?
RQ3고급 변분 가족이나 앙상블을 통한 포스터리어 구조 도입이 실제로 더 나은 포스터리어 근사로 이어지는가?

주요 결과

테스트 로그-가능도 및 보정 지표가 포스터리어 충실도의 오도할 수 있는 지표일 수 있으며, 실제 포스터리어 근사 품질을 반영하지 않을 수 있다.
포스터리어 구조를 포착하는 일부 방법이 기저 진짜 포스터리어의 근사를 일관되게 더 잘 만들어내지는 못한다.
SGHMC는 HMC와 가장 비슷한 포스트리오리더를 생성하는 경향이 있지만, SGLD는 종종 불확실성을 과소 추정한다.
앙상블은 모델 다양성이 적절히 촉진되지 않으면 불확실성 추정이 불안정해질 수 있다.
더 풍부한 발산이나 구조화된 변분 가족을 가진 방법이 이 실험들에서 반드시 더 단순한 접근보다 우수하다고 보장하지 않는다.
작업 전반에 걸쳐, 많은 근사 방법이 데이터가 충분히 샘플링되지 않는 영역에서 예측 분포가 불확실성을 과소평가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.