[논문 리뷰] Exploring the Limits of Out-of-Distribution Detection
이 논문은 대규모 사전학습 변환기, 특히 Vision Transformers(ViT)가 시각 및 게놈학에서 near-OOD 탐지를 크게 향상시키며, 소샷 이상치 노출과 제로샷 다중모달 신호가 성능을 추가로 높인다는 것을 보여준다.
Near out-of-distribution detection (OOD) is a major challenge for deep neural networks. We demonstrate that large-scale pre-trained transformers can significantly improve the state-of-the-art (SOTA) on a range of near OOD tasks across different data modalities. For instance, on CIFAR-100 vs CIFAR-10 OOD detection, we improve the AUROC from 85% (current SOTA) to more than 96% using Vision Transformers pre-trained on ImageNet-21k. On a challenging genomics OOD detection benchmark, we improve the AUROC from 66% to 77% using transformers and unsupervised pre-training. To further improve performance, we explore the few-shot outlier exposure setting where a few examples from outlier classes may be available; we show that pre-trained transformers are particularly well-suited for outlier exposure, and that the AUROC of OOD detection on CIFAR-100 vs CIFAR-10 can be improved to 98.7% with just 1 image per OOD class, and 99.46% with 10 images per OOD class. For multi-modal image-text pre-trained transformers such as CLIP, we explore a new way of using just the names of outlier classes as a sole source of information without any accompanying images, and show that this outperforms previous SOTA on standard vision OOD benchmark tasks.
연구 동기 및 목표
- 대규모 사전학습 변환기가 모달리티 간 near-OOD 탐지를 개선한다는 점을 입증한다.
- CIFAR-100 대 CIFAR-10 및 게놈 벤치마크에서 OOD 탐지 이점을 정량화한다.
- 미세조정, 다른 아키텍처, 및 자체지도 사전학습이 OOD 성능에 미치는 영향을 평가한다.
- 실용적 방법으로서 Few-shot 이상치 노출이 OOD 탐지를 증진시키는지 탐구한다.
- CLIP과 같은 다중모달 모델을 이용한 제로샷 OOD 탐지에서 이상치 클래스 이름을 활용한다.
제안 방법
- ImageNet-21k에서 사전 학습된 Vision Transformers(ViT)를 CIFAR-10/CIFAR-100에서 미세조정하고 MSP와 Mahalanobis 거리로 OOD 탐지를 평가한다.
- ViT를 BiT(ResNet 기반) 및 MLP-Mixer 아키텍처와 비교하여 아키텍처의 이점을 평가한다.
- 이상치를 노출시키는 방법으로 간단한 분류기(지도 학습 모델의 경우 선형, 비지도 학습 모델의 경우 얕은 MLP)를 사용하여 이미지 분포 내 샷 및 몇 개의 오탐치를 가진 데이터를 훈련한다.
- 클래스당 이상치 예시 수를 다르게 하여 Few-shot OOD 개선을 연구한다(1–10 및 그 이상).
- 이상치 클래스 이름을 후보 텍스트 레이블로 사용하고 이미지-텍스트 정렬에서 OOD 점수를 측정하여 CLIP 스타일의 제로샷 OOD 탐지를 적용한다.
실험 결과
연구 질문
- RQ1대규모 사전학습 변환기가 최첨단 기준선과 비교해 near-OOD 탐지를 얼마나 개선하는가?
- RQ2미세조정이 분포 내 데이터에 미치는 영향 vs. 사전학습 특징만 사용하는 경우 OOD 탐지에 미치는 영향은 무엇인가?
- RQ3CIFAR-100 대 CIFAR-10 및 CIFAR-10 대 CIFAR-100 작업에서 Few-shot 이상치 노출이 AUROC에 어떤 영향을 미치는가?
- RQ4CLIP과 같은 멀티모달 제로샷 신호가 라벨이 있는 OOD 이미지 없이도 OOD 탐지를 개선할 수 있는가?
- RQ5비지도 사전학습(DINO 등)이 OOD 탐지에 대해 지도 학습 사전학습과 비교해 어떤 차이를 보이는가?
주요 결과
| 모델 | 학습/분포 내 | 미세조정 테스트 정확도 | 분포 외 | 마할라노비스 AUROC | MSP AUROC |
|---|---|---|---|---|---|
| BiT-M R50x1 | CIFAR-100 | 87.01% | CIFAR-10 | 81.71% | 81.15% |
| BiT-M R101x3 | CIFAR-100 | 91.55% | CIFAR-10 | 90.10% | 83.69% |
| ViT-B_16 | CIFAR-100 | 90.95% | CIFAR-10 | 95.53% | 91.89% |
| R50+ViT-B_16 | CIFAR-100 | 91.71% | CIFAR-10 | 96.23% | 92.08% |
| MLP-Mixer-B_16 | CIFAR-100 | 90.40% | CIFAR-10 | 95.31% | 90.22% |
| BiT-M R50x1 | CIFAR-10 | 97.47% | CIFAR-100 | 95.52% | 85.87% |
| BiT-M R101x3 | CIFAR-10 | 97.36% | CIFAR-100 | 94.55% | 85.34% |
| ViT-B_16 | CIFAR-10 | 98.10% | CIFAR-100 | 98.42% | 97.68% |
| R50+ViT-B_16 | CIFAR-10 | 98.70% | CIFAR-100 | 98.52% | 97.75% |
| MLP-Mixer-B_16 | CIFAR-10 | 97.58% | CIFAR-100 | 97.85% | 96.28% |
- CIFAR-100에서 Mahalanobis 거리를 사용한 ViT 미세조정은 CIFAR-100 대 CIFAR-10에서 AUROC 96%를 달성하여 이전 SOTA인 85%를 상회한다.
- 사전 학습된 ViT(ImageNet-21k)은 near-OOD 작업에서 BiT 및 MLP-Mixer 벤치마크를 능가한다.
- 클래스당 1–10개의 라벨링된 OOD 예시를 가진 Few-shot 이상치 노출은 미세조정된 ViT 특성 사용 시 CIFAR-100 대 CIFAR-10에서 약 AUROC 99%를 달성한다.
- Genomics OOD 탐지는 MSP와 Mahalanobis 거리를 사용하는 사전 학습+미세조정 트랜스포머(BERT)로 66%에서 77% AUROC로 향상된다.
- 제로샷 OOD 탐지는 CLIP를 사용해 이상치 클래스 이름만으로 CIFAR-100 대 CIFAR-10에서 AUROC 94.8%에 도달하고 일부 멀리 떨어진 OOD 작업에서 거의 완벽에 가까운 AUROC를 달성한다(예: 99.6%/99.9%).
- Genomics OOD에서 사전 학습+미세조정 트랜스포머가 더 높은 AUROC를 보이며(77.49% Mahalanobis, 73.53% MSP) 분포 내 정확도도 더 높다(89.84%).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.