QUICK REVIEW

[논문 리뷰] Exploring the Limits of Out-of-Distribution Detection

Stanislav Fort, Jie Ren|arXiv (Cornell University)|2021. 06. 06.

Anomaly Detection Techniques and Applications참고 문헌 53인용 수 107

한 줄 요약

이 논문은 대규모 사전학습 변환기, 특히 Vision Transformers(ViT)가 시각 및 게놈학에서 near-OOD 탐지를 크게 향상시키며, 소샷 이상치 노출과 제로샷 다중모달 신호가 성능을 추가로 높인다는 것을 보여준다.

ABSTRACT

Near out-of-distribution detection (OOD) is a major challenge for deep neural networks. We demonstrate that large-scale pre-trained transformers can significantly improve the state-of-the-art (SOTA) on a range of near OOD tasks across different data modalities. For instance, on CIFAR-100 vs CIFAR-10 OOD detection, we improve the AUROC from 85% (current SOTA) to more than 96% using Vision Transformers pre-trained on ImageNet-21k. On a challenging genomics OOD detection benchmark, we improve the AUROC from 66% to 77% using transformers and unsupervised pre-training. To further improve performance, we explore the few-shot outlier exposure setting where a few examples from outlier classes may be available; we show that pre-trained transformers are particularly well-suited for outlier exposure, and that the AUROC of OOD detection on CIFAR-100 vs CIFAR-10 can be improved to 98.7% with just 1 image per OOD class, and 99.46% with 10 images per OOD class. For multi-modal image-text pre-trained transformers such as CLIP, we explore a new way of using just the names of outlier classes as a sole source of information without any accompanying images, and show that this outperforms previous SOTA on standard vision OOD benchmark tasks.

연구 동기 및 목표

대규모 사전학습 변환기가 모달리티 간 near-OOD 탐지를 개선한다는 점을 입증한다.
CIFAR-100 대 CIFAR-10 및 게놈 벤치마크에서 OOD 탐지 이점을 정량화한다.
미세조정, 다른 아키텍처, 및 자체지도 사전학습이 OOD 성능에 미치는 영향을 평가한다.
실용적 방법으로서 Few-shot 이상치 노출이 OOD 탐지를 증진시키는지 탐구한다.
CLIP과 같은 다중모달 모델을 이용한 제로샷 OOD 탐지에서 이상치 클래스 이름을 활용한다.

제안 방법

ImageNet-21k에서 사전 학습된 Vision Transformers(ViT)를 CIFAR-10/CIFAR-100에서 미세조정하고 MSP와 Mahalanobis 거리로 OOD 탐지를 평가한다.
ViT를 BiT(ResNet 기반) 및 MLP-Mixer 아키텍처와 비교하여 아키텍처의 이점을 평가한다.
이상치를 노출시키는 방법으로 간단한 분류기(지도 학습 모델의 경우 선형, 비지도 학습 모델의 경우 얕은 MLP)를 사용하여 이미지 분포 내 샷 및 몇 개의 오탐치를 가진 데이터를 훈련한다.
클래스당 이상치 예시 수를 다르게 하여 Few-shot OOD 개선을 연구한다(1–10 및 그 이상).
이상치 클래스 이름을 후보 텍스트 레이블로 사용하고 이미지-텍스트 정렬에서 OOD 점수를 측정하여 CLIP 스타일의 제로샷 OOD 탐지를 적용한다.

실험 결과

연구 질문

RQ1대규모 사전학습 변환기가 최첨단 기준선과 비교해 near-OOD 탐지를 얼마나 개선하는가?
RQ2미세조정이 분포 내 데이터에 미치는 영향 vs. 사전학습 특징만 사용하는 경우 OOD 탐지에 미치는 영향은 무엇인가?
RQ3CIFAR-100 대 CIFAR-10 및 CIFAR-10 대 CIFAR-100 작업에서 Few-shot 이상치 노출이 AUROC에 어떤 영향을 미치는가?
RQ4CLIP과 같은 멀티모달 제로샷 신호가 라벨이 있는 OOD 이미지 없이도 OOD 탐지를 개선할 수 있는가?
RQ5비지도 사전학습(DINO 등)이 OOD 탐지에 대해 지도 학습 사전학습과 비교해 어떤 차이를 보이는가?

주요 결과

모델	학습/분포 내	미세조정 테스트 정확도	분포 외	마할라노비스 AUROC	MSP AUROC
BiT-M R50x1	CIFAR-100	87.01%	CIFAR-10	81.71%	81.15%
BiT-M R101x3	CIFAR-100	91.55%	CIFAR-10	90.10%	83.69%
ViT-B_16	CIFAR-100	90.95%	CIFAR-10	95.53%	91.89%
R50+ViT-B_16	CIFAR-100	91.71%	CIFAR-10	96.23%	92.08%
MLP-Mixer-B_16	CIFAR-100	90.40%	CIFAR-10	95.31%	90.22%
BiT-M R50x1	CIFAR-10	97.47%	CIFAR-100	95.52%	85.87%
BiT-M R101x3	CIFAR-10	97.36%	CIFAR-100	94.55%	85.34%
ViT-B_16	CIFAR-10	98.10%	CIFAR-100	98.42%	97.68%
R50+ViT-B_16	CIFAR-10	98.70%	CIFAR-100	98.52%	97.75%
MLP-Mixer-B_16	CIFAR-10	97.58%	CIFAR-100	97.85%	96.28%

CIFAR-100에서 Mahalanobis 거리를 사용한 ViT 미세조정은 CIFAR-100 대 CIFAR-10에서 AUROC 96%를 달성하여 이전 SOTA인 85%를 상회한다.
사전 학습된 ViT(ImageNet-21k)은 near-OOD 작업에서 BiT 및 MLP-Mixer 벤치마크를 능가한다.
클래스당 1–10개의 라벨링된 OOD 예시를 가진 Few-shot 이상치 노출은 미세조정된 ViT 특성 사용 시 CIFAR-100 대 CIFAR-10에서 약 AUROC 99%를 달성한다.
Genomics OOD 탐지는 MSP와 Mahalanobis 거리를 사용하는 사전 학습+미세조정 트랜스포머(BERT)로 66%에서 77% AUROC로 향상된다.
제로샷 OOD 탐지는 CLIP를 사용해 이상치 클래스 이름만으로 CIFAR-100 대 CIFAR-10에서 AUROC 94.8%에 도달하고 일부 멀리 떨어진 OOD 작업에서 거의 완벽에 가까운 AUROC를 달성한다(예: 99.6%/99.9%).
Genomics OOD에서 사전 학습+미세조정 트랜스포머가 더 높은 AUROC를 보이며(77.49% Mahalanobis, 73.53% MSP) 분포 내 정확도도 더 높다(89.84%).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.