[論文レビュー] Exploring the Limits of Out-of-Distribution Detection
この論文は、大規模な事前学習済みトランスフォーマー、特に Vision Transformers (ViT) が近-OOD検出を視覚領域とゲノミクスで著しく改善し、few-shot 外れ値露出とゼロショットの多モーダル手が性能をさらに向上させることを示している。
Near out-of-distribution detection (OOD) is a major challenge for deep neural networks. We demonstrate that large-scale pre-trained transformers can significantly improve the state-of-the-art (SOTA) on a range of near OOD tasks across different data modalities. For instance, on CIFAR-100 vs CIFAR-10 OOD detection, we improve the AUROC from 85% (current SOTA) to more than 96% using Vision Transformers pre-trained on ImageNet-21k. On a challenging genomics OOD detection benchmark, we improve the AUROC from 66% to 77% using transformers and unsupervised pre-training. To further improve performance, we explore the few-shot outlier exposure setting where a few examples from outlier classes may be available; we show that pre-trained transformers are particularly well-suited for outlier exposure, and that the AUROC of OOD detection on CIFAR-100 vs CIFAR-10 can be improved to 98.7% with just 1 image per OOD class, and 99.46% with 10 images per OOD class. For multi-modal image-text pre-trained transformers such as CLIP, we explore a new way of using just the names of outlier classes as a sole source of information without any accompanying images, and show that this outperforms previous SOTA on standard vision OOD benchmark tasks.
研究の動機と目的
- 大規模な事前学習済みトランスフォーマーがモダリティを超えて近-OOD検出を改善することを実証する。
- CIFAR-100 vs CIFAR-10 およびゲノミクスのベンチマークでOOD検出の利得を定量化する。
- ファインチューニング、異なるアーキテクチャ、自己教師付き事前学習がOOD性能に与える影響を評価する。
- 実用的な方法として few-shot 外れ値露出を探索し、OOD検出を高める。
- outlierクラス名を活用して CLIP のようなマルチモーダルモデルを用いたゼロショットOOD検出を調査する。
提案手法
- ImageNet-21kで事前学習済みViTを CIFAR-10/CIFAR-100 にファインチューニングし、OOD検出に MSP と Mahalanobis 距離を評価する。
- ViT を BiT(ResNetベース)と MLP-Mixer アーキテクチャと比較して、アーキテクチャの利点を評価する。
- 外れ値露出を用いて、分布内/少数ショットの外れ値を用いた教師あり事前学習モデルは線形、教師なし事前学習モデルは浅いMLPで簡易分類器を訓練する。
- クラスごとの外れ値例の数を変化させ、few-shot OODの改善を研究する(1–10、さらに多く)。
- outlierクラス名を候補テキストラベルとして使用し、画像-テキストアライメントからOODスコアを測定するCLIP風ゼロショットOOD検出を適用する。
実験結果
リサーチクエスチョン
- RQ1大規模な事前学習済みトランスフォーマーは、最先端のベースラインと比較して近-OOD検出をどれだけ改善するか?
- RQ2ファインチューニングがITデータに対する影響と、事前学習特徴のみをOOD検出に使用する影響はどうか?
- RQ3few-shot外れ値露出は CIFAR-100 vs CIFAR-10 および CIFAR-10 vs CIFAR-100 のタスクでAUROCにどのように影響するか?
- RQ4CLIP のような多モーダル、ゼロショットの手掛かりが、ラベル付きOOD画像なしでOOD検出を改善できるか?
- RQ5無監督事前学習(例:DINO)は、OOD検出に対して監督付き事前学習とどう比較するか?
主な発見
| Model | In-distribution | Fine-tuned test accuracy | Out-distribution | Mahalanobis AUROC | MSP AUROC |
|---|---|---|---|---|---|
| BiT-M R50x1 | CIFAR-100 | 87.01% | CIFAR-10 | 81.71% | 81.15% |
| BiT-M R101x3 | CIFAR-100 | 91.55% | CIFAR-10 | 90.10% | 83.69% |
| ViT-B_16 | CIFAR-100 | 90.95% | CIFAR-10 | 95.53% | 91.89% |
| R50+ViT-B_16 | CIFAR-100 | 91.71% | CIFAR-10 | 96.23% | 92.08% |
| MLP-Mixer-B_16 | CIFAR-100 | 90.40% | CIFAR-10 | 95.31% | 90.22% |
| BiT-M R50x1 | CIFAR-10 | 97.47% | CIFAR-100 | 95.52% | 85.87% |
| BiT-M R101x3 | CIFAR-10 | 97.36% | CIFAR-100 | 94.55% | 85.34% |
| ViT-B_16 | CIFAR-10 | 98.10% | CIFAR-100 | 98.42% | 97.68% |
| R50+ViT-B_16 | CIFAR-10 | 98.70% | CIFAR-100 | 98.52% | 97.75% |
| MLP-Mixer-B_16 | CIFAR-10 | 97.58% | CIFAR-100 | 97.85% | 96.28% |
- ViT を CIFAR-100 で Mahalanobis 距離と併用すると CIFAR-100 対 CIFAR-10 の AUROC が 96% に達し、従来のSOTA 85% を上回る。
- 事前学習済み ViT (ImageNet-21k) が near-OOD タスクで BiT と MLP-Mixer のベースラインを上回る。
- 1–10 のラベル付きOOD例を各クラスにつけた few-shot 外れ値露出は、fine-tuned ViT の特徴を用いると CIFAR-100 対 CIFAR-10 で約 AUROC 99% を達成。
- ゲノミクスOOD検出は、MSP と Mahalanobis 距離を用いた事前学習+ファインチューニングトランスフォーマー(BERT)で 66% から 77% へ改善。
- ゼロショットOOD検出は、outlierクラス名のみを使ってCLIP風に実現すると CIFAR-100 対 CIFAR-10 で AUROC 94.8%、いくつかの遠距離OODタスクではほぼ完璧な AUROC(例: 99.6%/99.9%)。
- ゲノミクスOOD は pre-trained+fine-tuned トランスフォーマーで AUROC が高く、77.49% Mahalanobis, 73.53% MSP、in-distribution 精度 89.84% に。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。