Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Confidence for Out-of-Distribution Detection in Neural Networks

Terrance DeVries, Graham W. Taylor|arXiv (Cornell University)|2018. 02. 13.
Adversarial Robustness in Machine Learning참고 문헌 5인용 수 356
한 줄 요약

본 논문은 신경망에서 out-of-distribution 입력을 감지하기 위한 신뢰도 추정 분기를 도입하여 softmax 기반 방법과 ODIN보다 성능을 향상시키되 OOD 라벨이 필요하지 않음을 보여준다. 신뢰도 불일치는 작업 성능과 보정된 신뢰도 사이의 균형을 맞추는 손실을 통해 완화된다.

ABSTRACT

Modern neural networks are very powerful predictive models, but they are often incapable of recognizing when their predictions may be wrong. Closely related to this is the task of out-of-distribution detection, where a network must determine whether or not an input is outside of the set on which it is expected to safely perform. To jointly address these issues, we propose a method of learning confidence estimates for neural networks that is simple to implement and produces intuitively interpretable outputs. We demonstrate that on the task of out-of-distribution detection, our technique surpasses recently proposed techniques which construct confidence based on the network's output distribution, without requiring any additional labels or access to out-of-distribution examples. Additionally, we address the problem of calibrating out-of-distribution detectors, where we demonstrate that misclassified in-distribution examples can be used as a proxy for out-of-distribution examples.

연구 동기 및 목표

  • 보정된 신뢰도 추정치를 동기화하여 예측이 잘못될 수 있고 입력이 OOD일 수 있음을 식별한다.
  • 표준 분류기를 보강하는 학습 가능한 신뢰도 분기를 제안한다.
  • 신뢰도 기반 임계값이 아키텍처와 데이터셋 전반에서 OOD 탐지를 향상시킴을 보인다.
  • 분류가 잘못된 동일 분포 내 샘플이 OOD 데이터 없이도 OOD 탐지기를 보정할 수 있음을 보여준다.

제안 방법

  • 예측 분기와 평행하게 스칼라 c를 [0,1] 범위로 출력하는 신뢰도 추정 분기를 추가한다.
  • y가 목표 분포일 때 p' = c * p + (1 - c) * y 로 예측 확률을 수정한다.
  • L_t(예: 음의 로그 가능도)와 가중치 lambda로 곱한 L_c = -log(c)인 신뢰 손실을 함께 학습한다: L = L_t + lambda * L_c.
  • 매 업데이트 후 lambda를 조정하여 L_c를 대략 beta로 유지하는 예산 파라미터 beta를 도입한다.
  • 데이터 증강과 오분류 예제 보유(Cutout 등)을 활용해 과적합을 방지하고 신뢰도 학습에 유용한 오분류를 유지한다.
  • L_c의 기울기로 도출된 섭동 입력을 사용하여 입력을 더 높은 신뢰도로 밀어 기존/비정상 간 분리를 강화하는 입력 전처리를 적용한다.

실험 결과

연구 질문

  • RQ1OOD 라벨 없이 입력당 학습된 신뢰도 추정치가 동일 분포 데이터와 OOD 데이터를 의미 있게 구분할 수 있는가?
  • RQ2다수의 아키텍처와 OOD 데이터세트에서 신뢰도 기반 임계값 설정이 softmax 기반 임계값 설정 및 ODIN을 능가하는가?
  • RQ3OOD 샘플이 없을 때 동일 분포 내 오분류를 OOD 탐지기를 보정하는 대리지로 사용할 수 있는가?
  • RQ4분류 정확도를 보존하면서 유용한 신뢰도 추정을 유지하기 위해 학습 하이퍼파라미터(lambda, beta)를 어떻게 설정해야 하는가?

주요 결과

  • 대부분의 아키텍처와 데이터세트에서 소프트맥스 기반 방법보다 신뢰도 추정이 동일 분포/다른 분포 샘플의 분리를 더 잘 가능하게 한다.
  • 학습된 신뢰도에 따른 임계값이 입력 전처리와 온도 스케일링을 포함하여 ODIN보다 성능이 우수하다.
  • 신뢰도 분기를 갖춘 모델 학습은 기본 모델에 비해 동일 분포 정확도를 보존한다.
  • 실제 OOD 데이터가 없을 때 동일 분포 내 잘못 분류된 예제가 OOD 탐지기를 보정하는 실용적 대리 역할을 할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.