QUICK REVIEW

[논문 리뷰] Dropout Inference in Bayesian Neural Networks with Alpha-divergences

Yingzhen Li, Yarin Gal|arXiv (Cornell University)|2017. 03. 08.

Adversarial Robustness in Machine Learning참고 문헌 39인용 수 107

한 줄 요약

이 논문은 alpha-다양성(alpha-divergence) 목표를 재매개하여 dropout 기반의 베이지안 신경망 추론을 실용적으로 가능하게 하며, 불확실성 추정과 적대적 예에 대한 강건성을 향상시킨다.

ABSTRACT

To obtain uncertainty estimates with real-world Bayesian deep learning models, practical inference approximations are needed. Dropout variational inference (VI) for example has been used for machine vision and medical applications, but VI can severely underestimates model uncertainty. Alpha-divergences are alternative divergences to VI's KL objective, which are able to avoid VI's uncertainty underestimation. But these are hard to use in practice: existing techniques can only use Gaussian approximating distributions, and require existing models to be changed radically, thus are of limited use for practitioners. We propose a re-parametrisation of the alpha-divergence objectives, deriving a simple inference technique which, together with dropout, can be easily implemented with existing models by simply changing the loss of the model. We demonstrate improved uncertainty estimates and accuracy compared to VI in dropout networks. We study our model's epistemic uncertainty far away from the data using adversarial images, showing that these can be distinguished from non-adversarial images by examining our model's uncertainty.

연구 동기 및 목표

BNN에서 더 나은 불확실성 추정의 필요성을 제시한다.
표준 dropout 및 기존 아키텍처와 함께 작동하는 실용적인 alpha-다 divergence 기반 추론을 제안한다.
표준 dropout VI 대비 다양한 작업에서 불확실성과 예측 정확도 향상을 입증한다.
데이터에서 멀리 떨어진 인식적 불확실성과 적대적 예와의 관계를 평가한다.

제안 방법

BB-α 에너지를 재구성하여 모델 아키텍처를 바꾸지 않고 dropout 기반의 근사 추론이 가능하게 한다.
캐비티 분포를 이용한 재매개변화를 사용하여 dropout과 호환되는 tractable objective를 도출한다(식 7).
MC 목적함수 L̃α(q)를 KL[q||p0] + 상수 − (1/α) sum_n log-sum-exp[−α l(y_n, f^ω_k(x_n))] 로 K 샘플로 정의한다.
dropout를 특수화하여 여러 확률적 순전파를 샘플링하고 실용적인 손실을 얻는다(분류에 대한 식 9, 회귀에 대한 식 10).
출력을 α 제곱으로 올리고 MC 샘플에 대해 평균을 내는 구체적인 dropout-BB-α 목적함수를 제공한다.
α가 예측 가능도 최적화(α≈1)와 변분 자유에 대한 trade-off(α→0)를 어떻게 제어하는지 보여준다.

실험 결과

연구 질문

RQ1alpha-divergence 기반 dropout 추론이 표준 dropout VI보다 더 잘 보정된 불확실성을 제공하는가?
RQ2다양한 α 값이 벤치마크 데이터셋에서 회귀 및 분류 성능에 어떤 영향을 미치는가?
RQ3dropout-BB-α가 인식적 불확실성을 통해 강건성과 적대적 입력 탐지를 향상시킬 수 있는가?
RQ4VI 및 다른 베이지안 방법과 비교하여 실용적인 학습 시간 영향은 무엇인가?
RQ5이 접근법이 CNN 및 더 큰 아키텍처로 일반화되는가?

주요 결과

비-VI α 값들(예: α=0.5 또는 α=1)이 회귀에서 예측 로그 가능도와 종종 RMSE를 VI와 비교하여 경쟁력 있게 유지시킨다.
MNIST 분류에서 α=0.5(헬링저 값)가 최상의 테스트 RMSE를 낳고 완전 연결 네트워크에서 로그 가능도 측면에서 EP 값과 일치한다; VI(α=0)은 이러한 지표에서 열세를 보인다.
MNIST의 CNN에 대해 VI-α(α=0)는 로그 가능도에서 대개 α=0.5에 근접하고 α=1에 근접한 경우도 있으며 정확도도 향상된다.
이 접근법은 간단한 손실 재구성을 통해 MC dropout을 가능하게 하며 학습 시간은 VI와 경쟁적이다.
적대적 MNIST 이미지에 대해 불확실성이 증가하여 비적대적 샘플과의 분리를 인식적 불확실성을 통해 가능하게 한다.
실험은 이 방법이 가우시안 VI 베이스라인을 능가하고 회귀 작업에서 HMC 및 희소 GP와도 경쟁력이 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.