QUICK REVIEW

[論文レビュー] Exploring the Limits of Out-of-Distribution Detection

Stanislav Fort, Jie Ren|arXiv (Cornell University)|Jun 6, 2021

Anomaly Detection Techniques and Applications参考文献 53被引用数 107

ひとこと要約

この論文は、大規模な事前学習済みトランスフォーマー、特に Vision Transformers (ViT) が近-OOD検出を視覚領域とゲノミクスで著しく改善し、few-shot 外れ値露出とゼロショットの多モーダル手が性能をさらに向上させることを示している。

ABSTRACT

Near out-of-distribution detection (OOD) is a major challenge for deep neural networks. We demonstrate that large-scale pre-trained transformers can significantly improve the state-of-the-art (SOTA) on a range of near OOD tasks across different data modalities. For instance, on CIFAR-100 vs CIFAR-10 OOD detection, we improve the AUROC from 85% (current SOTA) to more than 96% using Vision Transformers pre-trained on ImageNet-21k. On a challenging genomics OOD detection benchmark, we improve the AUROC from 66% to 77% using transformers and unsupervised pre-training. To further improve performance, we explore the few-shot outlier exposure setting where a few examples from outlier classes may be available; we show that pre-trained transformers are particularly well-suited for outlier exposure, and that the AUROC of OOD detection on CIFAR-100 vs CIFAR-10 can be improved to 98.7% with just 1 image per OOD class, and 99.46% with 10 images per OOD class. For multi-modal image-text pre-trained transformers such as CLIP, we explore a new way of using just the names of outlier classes as a sole source of information without any accompanying images, and show that this outperforms previous SOTA on standard vision OOD benchmark tasks.

研究の動機と目的

大規模な事前学習済みトランスフォーマーがモダリティを超えて近-OOD検出を改善することを実証する。
CIFAR-100 vs CIFAR-10 およびゲノミクスのベンチマークでOOD検出の利得を定量化する。
ファインチューニング、異なるアーキテクチャ、自己教師付き事前学習がOOD性能に与える影響を評価する。
実用的な方法として few-shot 外れ値露出を探索し、OOD検出を高める。
outlierクラス名を活用して CLIP のようなマルチモーダルモデルを用いたゼロショットOOD検出を調査する。

提案手法

ImageNet-21kで事前学習済みViTを CIFAR-10/CIFAR-100 にファインチューニングし、OOD検出に MSP と Mahalanobis 距離を評価する。
ViT を BiT（ResNetベース）と MLP-Mixer アーキテクチャと比較して、アーキテクチャの利点を評価する。
外れ値露出を用いて、分布内/少数ショットの外れ値を用いた教師あり事前学習モデルは線形、教師なし事前学習モデルは浅いMLPで簡易分類器を訓練する。
クラスごとの外れ値例の数を変化させ、few-shot OODの改善を研究する（1–10、さらに多く）。
outlierクラス名を候補テキストラベルとして使用し、画像-テキストアライメントからOODスコアを測定するCLIP風ゼロショットOOD検出を適用する。

実験結果

リサーチクエスチョン

RQ1大規模な事前学習済みトランスフォーマーは、最先端のベースラインと比較して近-OOD検出をどれだけ改善するか？
RQ2ファインチューニングがITデータに対する影響と、事前学習特徴のみをOOD検出に使用する影響はどうか？
RQ3few-shot外れ値露出は CIFAR-100 vs CIFAR-10 および CIFAR-10 vs CIFAR-100 のタスクでAUROCにどのように影響するか？
RQ4CLIP のような多モーダル、ゼロショットの手掛かりが、ラベル付きOOD画像なしでOOD検出を改善できるか？
RQ5無監督事前学習（例:DINO）は、OOD検出に対して監督付き事前学習とどう比較するか？

主な発見

Model	In-distribution	Fine-tuned test accuracy	Out-distribution	Mahalanobis AUROC	MSP AUROC
BiT-M R50x1	CIFAR-100	87.01%	CIFAR-10	81.71%	81.15%
BiT-M R101x3	CIFAR-100	91.55%	CIFAR-10	90.10%	83.69%
ViT-B_16	CIFAR-100	90.95%	CIFAR-10	95.53%	91.89%
R50+ViT-B_16	CIFAR-100	91.71%	CIFAR-10	96.23%	92.08%
MLP-Mixer-B_16	CIFAR-100	90.40%	CIFAR-10	95.31%	90.22%
BiT-M R50x1	CIFAR-10	97.47%	CIFAR-100	95.52%	85.87%
BiT-M R101x3	CIFAR-10	97.36%	CIFAR-100	94.55%	85.34%
ViT-B_16	CIFAR-10	98.10%	CIFAR-100	98.42%	97.68%
R50+ViT-B_16	CIFAR-10	98.70%	CIFAR-100	98.52%	97.75%
MLP-Mixer-B_16	CIFAR-10	97.58%	CIFAR-100	97.85%	96.28%

ViT を CIFAR-100 で Mahalanobis 距離と併用すると CIFAR-100 対 CIFAR-10 の AUROC が 96% に達し、従来のSOTA 85% を上回る。
事前学習済み ViT (ImageNet-21k) が near-OOD タスクで BiT と MLP-Mixer のベースラインを上回る。
1–10 のラベル付きOOD例を各クラスにつけた few-shot 外れ値露出は、fine-tuned ViT の特徴を用いると CIFAR-100 対 CIFAR-10 で約 AUROC 99% を達成。
ゲノミクスOOD検出は、MSP と Mahalanobis 距離を用いた事前学習+ファインチューニングトランスフォーマー(BERT)で 66% から 77% へ改善。
ゼロショットOOD検出は、outlierクラス名のみを使ってCLIP風に実現すると CIFAR-100 対 CIFAR-10 で AUROC 94.8%、いくつかの遠距離OODタスクではほぼ完璧な AUROC（例: 99.6%/99.9%）。
ゲノミクスOOD は pre-trained+fine-tuned トランスフォーマーで AUROC が高く、77.49% Mahalanobis, 73.53% MSP、in-distribution 精度 89.84% に。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。