QUICK REVIEW

[논문 리뷰] A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks

Dan Hendrycks, Kevin Gimpel|arXiv (Cornell University)|2016. 10. 07.

Neural Networks and Applications인용 수 1,615

한 줄 요약

이 논문은 최대 소프트맥스 확률을 사용하여 시각, NLP, 음성 작업에서 잘못 분류되었거나 분포 밖(out-of-distribution) 예제를 탐지하는 간단한 baseline을 도입하고, 또한 특정 작업에서 baseline을 능가할 수 있는 보조 이상치 감지기를 제안한다.

ABSTRACT

We consider the two related problems of detecting if an example is misclassified or out-of-distribution. We present a simple baseline that utilizes probabilities from softmax distributions. Correctly classified examples tend to have greater maximum softmax probabilities than erroneously classified and out-of-distribution examples, allowing for their detection. We assess performance by defining several tasks in computer vision, natural language processing, and automatic speech recognition, showing the effectiveness of this baseline across all. We then show the baseline can sometimes be surpassed, demonstrating the room for future research on these underexplored detection tasks.

연구 동기 및 목표

모델이 잘못 분류될 때나 입력이 OOD일 때를 탐지해야 함의 필요성을 동기 부여하고 정량화한다.
다양한 도메인에서 오류와 OOD 입력을 탐지하기 위한 소프트맥스 최대 확 probabilities를 사용하는 간단한 baseline을 제안한다.
보조 입력 재구성을 통한 향상이 baseline를 넘어 이상치 감지 성능을 개선하는지 탐구한다.
신경망에서 오류 및 OOD 탐지 평가를 위한 표준 작업과 지표를 제공한다.

제안 방법

훈련된 분류기의 최대 소프트맥스 확률을 잘못 분류 및 내부-분포/외부-분포 구분 탐지 점수로 사용한다.
컴퓨터 비전, NLP, 자동 음성 인식에서 다양한 데이터셋으로 baseline을 평가하고 AUROC와 AUPR 지표를 보고한다.
입력 재구성 디코더와 이상치 모듈로 구성된 재구성 기반 보조 모델을 조사하여 이상치 탐지 성능을 향상시킨다.
소프트맥스 기반 점수는 직접적인 신뢰도 추정치가 아니지만 올바른 대 잘못된 것, 내부-대-분포 간 구분에 효과적으로 기여할 수 있음을 보여준다.
오류 및 OOD 탐지를 위한 표준 작업 및 평가 지표를 도입하여 향후 연구를 안내한다.

실험 결과

연구 질문

RQ1소프트맥스 최대 확률에 기반한 간단한 baseline이 다양한 도메인(시각, NLP, 음성)에서 잘못 분류된 예제를 신뢰성 있게 탐지할 수 있는가?
RQ2동일한 baseline이 내부 분포와 외부 분포 입력을 효과적으로 구분할 수 있는가?
RQ3특정 설정에서 재구성 기반 보조 이상치 탐지기가 소프트맥스 baseline을 넘어 탐지 성능을 향상시키는가?
RQ4신경망에서 오류 및 분포 밖 탐지를 평가하기 위해 사용할 수 있는 표준 작업과 지표는 무엇인가?

주요 결과

소프트맥스 최대 확률은 MNIST, CIFAR-10, CIFAR-100 및 NLP/음성 작업에서 잘못 분류를 탐지하는 데 놀랍게도 효과적인 기본선으로 작용한다.
Baseline은 SUN, Omniglot, notMNIST, Gaussian 노이즈 등의 다양한 데이터셋에서 내부-분포와 외부-분포 데이터 간 구분도 가능하게 한다.
여러 작업에서 AUC-ROC와 AUPR은 강력한 탐지 성능을 나타내지만 기본선이 보편적으로 최적은 아니므로 개선 여지가 있다.
입력 재구성 디코더를 갖춘 보조 이상치 모듈은 특정 시나리오(TIMIT, MNIST)에서 기본선을 능가할 수 있으며, 이상치 탐지를 위한 내부 표현의 추가 정보를 시사한다.
이 연구는 도메인 간 강건한 적용 가능성을 보여주고 오류 및 OOD 탐지 연구의 미래를 위한 토대를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.