QUICK REVIEW

[논문 리뷰] Being Bayesian, Even Just a Bit, Fixes Overconfidence in ReLU Networks

Agustinus Kristiadi, Matthias Hein|arXiv (Cornell University)|2020. 02. 24.

Adversarial Robustness in Machine Learning참고 문헌 52인용 수 34

한 줄 요약

해당 논문은 Gaussian 근사가 ReLU 네트워크 가중치에 대해, 마지막 계층 Bayesian 접근을 포함하여, 학습 데이터에서 멀리 떨어진 예측의 과신을 완화시키며, 이론과 실험이 비용 효율적이고 “조금 Bayesian한” 해법을 뒷받침한다는 것을 보인다.

ABSTRACT

The point estimates of ReLU classification networks---arguably the most widely used neural network architecture---have been shown to yield arbitrarily high confidence far away from the training data. This architecture, in conjunction with a maximum a posteriori estimation scheme, is thus not calibrated nor robust. Approximate Bayesian inference has been empirically demonstrated to improve predictive uncertainty in neural networks, although the theoretical analysis of such Bayesian approximations is limited. We theoretically analyze approximate Gaussian distributions on the weights of ReLU networks and show that they fix the overconfidence problem. Furthermore, we show that even a simplistic, thus cheap, Bayesian approximation, also fixes these issues. This indicates that a sufficient condition for a calibrated uncertainty on a ReLU network is "to be a bit Bayesian". These theoretical results validate the usage of last-layer Bayesian approximation and motivate a range of a fidelity-cost trade-off. We further validate these findings empirically via various standard experiments using common deep ReLU networks and Laplace approximations.

연구 동기 및 목표

ReLU 네트워크에서 과신 이슈와 그것이 교정 및 강건성에 미치는 함의를 동기화하고 형식화한다.
Gaussian weight 근사를 통해 학습 데이터에서 벗어난 예측의 신뢰도를 안정시킨다는 이론적 결과를 개발한다.
최소한의 Bayesian 처리, 특히 last-layer Bayes가 교정을 해치지 않으면서도 인디스트리뷰션 정확도를 해치지 않는다는 것을 보여준다.
Laplace/Gaussian 근사를 사용한 일반적인 deep ReLU 아키텍처에서 이론을 실험적으로 검증한다.

제안 방법

네트워크 예측을 weights에 대한 Gaussian 근사 p(theta|D) 하에서 모델링하고 예측 분포를 도출한다.
Gaussian weight 불확실성을 보정된 예측 확률과 연결하기 위해 probit/phi 근사를 사용한다 (equations 3–5).
Gaussian 주변화 하에서 MAP 결정이 변하지 않는 불변성 특성을 증명한다 (Proposition 2.2).
입력 샘플이 학습 데이터에서 멀어질수록 예측 신뢰도에 대한 점근적 경계를 도출한다 (Theorems 2.3 및 2.4).
마지막 계층 Gaussian 근사만으로도 멀리 떨어진 신뢰도를 유한한 상한으로 제시하는 것이 충분하다는 것을 보인다 (Theorem 2.4).
Laplace 근사를 적용하여 (전체 및 마지막 계층) 교정 및 OOD 탐지에 미치는 영향을 분석하고 정량화한다 (Propositions 2.5 및 관련 논의).

실험 결과

연구 질문

RQ1신경망 가중치의 Gaussian 불확실성 도입이 ReLU 분류기의 과신을 완화하는가?
RQ2전체 네트워크 Bayesian 처리가 필요한가, 아니면 경량의 last-layer Bayesian 접근으로도 교정된 불확실성을 얻을 수 있는가?
RQ3Gaussian 근사가 학습 데이터에서 벗어난 입력에 대한 예측 신뢰도의 점근적 특성에 어떤 영향을 미치는가?
RQ4이 이론적 통찰이 다중 클래스 분류 및 실용적인 OOD 탐지 시나리오에 확장되는가?
RQ5Laplace 근사를 위한 사전 분산(prior variance)을 인디스트리뷰션 정확도와 OOD 보정의 균형을 맞추도록 설정하는 실용적 전략은 무엇인가?

주요 결과

Gaussian 가중치 불확실성은 ReLU 네트워크의 과신을 완화하여 멀리 벗어난 예측 신뢰도를 평균과 공분산에 의해 결정되는 유한한 상한으로 끌고 간다.
마지막 계층 Gaussian 근사만으로도 Trained MAP 네트워크의 결정 경계를 바꾸지 않으면서 보정된 불확실성을 얻을 수 있다.
전체 계층 Gaussian 근사는 멀리 벗어난 신뢰도를 더 제한하고 Jacobian 및 가중치 공분산의 최소 고유값과 연관시킨다.
Laplace 근사는 재학습 없이도 베이지안 보정을 얻는 실용적 수단을 제공하며, 사전 분산은 멀리 벗어난 신뢰도를 제어한다.
일반적인 아키텍처(LeNet, ResNet-18) 및 데이터셋(이진 및 다중 클래스)에서의 실험 결과가 이론적 예측을 지지하고 OOD 탐지 성능을 향상시킨다.
마지막 계층 Bayesian 방법은 이 교정 과제에서 실무적으로 전체 Bayesian 접근보다 자주 더 나은 성과를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.