[논문 리뷰] Evidential Deep Learning to Quantify Classification Uncertainty
이 논문은 디리클레 분포를 클래스 확률에 over 적용하여 예측 불확실성을 모델링하는 evidential deep learning (EDL)을 제안하고, 명시적 불확실성 추정과 OOD 데이터 및 적대적 공격에 대한 견고성 향상을 가능하게 한다. 정확도는 경쟁력 있는 수준을 유지하며 보정된 불확실성 추정치를 제공하고, 여러 베이지안 및 앙상블 기준보다 성능이 향상된다.
Deterministic neural nets have been shown to learn effective predictors on a wide range of machine learning problems. However, as the standard approach is to train the network to minimize a prediction loss, the resultant model remains ignorant to its prediction confidence. Orthogonally to Bayesian neural nets that indirectly infer prediction uncertainty through weight uncertainties, we propose explicit modeling of the same using the theory of subjective logic. By placing a Dirichlet distribution on the class probabilities, we treat predictions of a neural net as subjective opinions and learn the function that collects the evidence leading to these opinions by a deterministic neural net from data. The resultant predictor for a multi-class classification problem is another Dirichlet distribution whose parameters are set by the continuous output of a neural net. We provide a preliminary analysis on how the peculiarities of our new loss function drive improved uncertainty estimation. We observe that our method achieves unprecedented success on detection of out-of-distribution queries and endurance against adversarial perturbations.
연구 동기 및 목표
- 분류기의 로우 소프트맥스 확률을 넘어선 강인한 불확실성 추정의 필요성을 제시한다.
- 소프트맥스 출력에 대한 분포로 예측을 표현하는 Dirichlet 기반의 증거 프레임워크를 도입한다.
- 데이터 적합도와 불확실성을 함께 제어하는 증거 매개변수를 학습하는 손실을 개발한다.
- KL-발산을 'I do not know' 상태로의 과도한 확신을 방지하도록 정규화하여 불확실성 calibration를 돕는다.
제안 방법
- 소프트맥스를 음의 비음수 증거 벡터로 대체하여 Dirichlet 분포의 매개변수를 제공한다.
- Dirichlet 매개변수 alpha_i = f(x_i|Theta) + 1 로 정의하며 f는 신경망 출력이다.
- L2 유형의 목적함수를 기반으로 한 손실:L_i(Theta) = sum_j (y_ij - E[p_ij])^2 + Var(p_ij), 이는 alpha와 S = sum alpha를 이용한 클래스별 항으로 확장된다.
- 충분한 증거가 없을 때(‘I do not know’)에 대한 예측을 균일 Dirichlet으로 밀어붙이는 KL 발산 항을 도입하고 학습 에폭에 걸쳐 증가시키며 조절한다.
- 표준 역전파를 사용한 LeNet류 아키텍처와 Adam 옵티마이저로 학습한다.
- MNIST 및 CIFAR-10 변형에 대해 L2, Dropout, Deep Ensemble, 및 변분 베이지안 네트에 비해 비교한다.
실험 결과
연구 질문
- RQ1Dirichlet 분포된 예측이 신경망 분류기의 신뢰할 수 있는 인식적 불확실성을 제공할 수 있는가?
- RQ2증거 학습이 Bayesian 및 앙상블 방법과 비교했을 때 OOD 탐지 및 적대적 강건성 측면에서 얼마나 성능 있는가?
- RQ3제안된 손실이 데이터 적합성과 불확실성 보정 간의 균형을 효과적으로 달성하는가?
주요 결과
| Method | MNIST | CIFAR5 |
|---|---|---|
| L2 | 99.4 | 76 |
| Dropout | 99.5 | 84 |
| Deep Ensemble | 99.3 | 79 |
| FFGU | 99.1 | 78 |
| FFLU | 99.1 | 77 |
| MNFG | 99.3 | 84 |
| EDL | 99.3 | 83 |
- 제안된 EDL 방법은 MNIST 및 CIFAR-5에서 경쟁력 있는 정확도를 내면서도 명시적 불확실성 추정치를 제공한다.
- EDL은 notMNIST(Out-of-Distribution) 데이터를 더 높은 불확실성과 더 낮은 신뢰도로 더 잘 탐지한다.
- 적대적 섭동 하에서 EDL은 잘못된 예측에 대해 더 높은 불확실성을 유지하고, 대안 대비 정확도-불확실성 트레이드오프가 우수하다.
- Dirichlet 기반 접근은 입력 분포 변화가 있는 경우 예측 분포가 표준 소프트맥스 기반 모델보다 더 정확하게 반영된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.