Skip to main content
QUICK REVIEW

[論文レビュー] Exploring the Limits of Out-of-Distribution Detection

Stanislav Fort, Jie Ren|arXiv (Cornell University)|Jun 6, 2021
Anomaly Detection Techniques and Applications参考文献 53被引用数 107
ひとこと要約

この論文は、大規模な事前学習済みトランスフォーマー、特に Vision Transformers (ViT) が近-OOD検出を視覚領域とゲノミクスで著しく改善し、few-shot 外れ値露出とゼロショットの多モーダル手が性能をさらに向上させることを示している。

ABSTRACT

Near out-of-distribution detection (OOD) is a major challenge for deep neural networks. We demonstrate that large-scale pre-trained transformers can significantly improve the state-of-the-art (SOTA) on a range of near OOD tasks across different data modalities. For instance, on CIFAR-100 vs CIFAR-10 OOD detection, we improve the AUROC from 85% (current SOTA) to more than 96% using Vision Transformers pre-trained on ImageNet-21k. On a challenging genomics OOD detection benchmark, we improve the AUROC from 66% to 77% using transformers and unsupervised pre-training. To further improve performance, we explore the few-shot outlier exposure setting where a few examples from outlier classes may be available; we show that pre-trained transformers are particularly well-suited for outlier exposure, and that the AUROC of OOD detection on CIFAR-100 vs CIFAR-10 can be improved to 98.7% with just 1 image per OOD class, and 99.46% with 10 images per OOD class. For multi-modal image-text pre-trained transformers such as CLIP, we explore a new way of using just the names of outlier classes as a sole source of information without any accompanying images, and show that this outperforms previous SOTA on standard vision OOD benchmark tasks.

研究の動機と目的

  • 大規模な事前学習済みトランスフォーマーがモダリティを超えて近-OOD検出を改善することを実証する。
  • CIFAR-100 vs CIFAR-10 およびゲノミクスのベンチマークでOOD検出の利得を定量化する。
  • ファインチューニング、異なるアーキテクチャ、自己教師付き事前学習がOOD性能に与える影響を評価する。
  • 実用的な方法として few-shot 外れ値露出を探索し、OOD検出を高める。
  • outlierクラス名を活用して CLIP のようなマルチモーダルモデルを用いたゼロショットOOD検出を調査する。

提案手法

  • ImageNet-21kで事前学習済みViTを CIFAR-10/CIFAR-100 にファインチューニングし、OOD検出に MSP と Mahalanobis 距離を評価する。
  • ViT を BiT(ResNetベース)と MLP-Mixer アーキテクチャと比較して、アーキテクチャの利点を評価する。
  • 外れ値露出を用いて、分布内/少数ショットの外れ値を用いた教師あり事前学習モデルは線形、教師なし事前学習モデルは浅いMLPで簡易分類器を訓練する。
  • クラスごとの外れ値例の数を変化させ、few-shot OODの改善を研究する(1–10、さらに多く)。
  • outlierクラス名を候補テキストラベルとして使用し、画像-テキストアライメントからOODスコアを測定するCLIP風ゼロショットOOD検出を適用する。

実験結果

リサーチクエスチョン

  • RQ1大規模な事前学習済みトランスフォーマーは、最先端のベースラインと比較して近-OOD検出をどれだけ改善するか?
  • RQ2ファインチューニングがITデータに対する影響と、事前学習特徴のみをOOD検出に使用する影響はどうか?
  • RQ3few-shot外れ値露出は CIFAR-100 vs CIFAR-10 および CIFAR-10 vs CIFAR-100 のタスクでAUROCにどのように影響するか?
  • RQ4CLIP のような多モーダル、ゼロショットの手掛かりが、ラベル付きOOD画像なしでOOD検出を改善できるか?
  • RQ5無監督事前学習(例:DINO)は、OOD検出に対して監督付き事前学習とどう比較するか?

主な発見

ModelIn-distributionFine-tuned test accuracyOut-distributionMahalanobis AUROCMSP AUROC
BiT-M R50x1CIFAR-10087.01%CIFAR-1081.71%81.15%
BiT-M R101x3CIFAR-10091.55%CIFAR-1090.10%83.69%
ViT-B_16CIFAR-10090.95%CIFAR-1095.53%91.89%
R50+ViT-B_16CIFAR-10091.71%CIFAR-1096.23%92.08%
MLP-Mixer-B_16CIFAR-10090.40%CIFAR-1095.31%90.22%
BiT-M R50x1CIFAR-1097.47%CIFAR-10095.52%85.87%
BiT-M R101x3CIFAR-1097.36%CIFAR-10094.55%85.34%
ViT-B_16CIFAR-1098.10%CIFAR-10098.42%97.68%
R50+ViT-B_16CIFAR-1098.70%CIFAR-10098.52%97.75%
MLP-Mixer-B_16CIFAR-1097.58%CIFAR-10097.85%96.28%
  • ViT を CIFAR-100 で Mahalanobis 距離と併用すると CIFAR-100 対 CIFAR-10 の AUROC が 96% に達し、従来のSOTA 85% を上回る。
  • 事前学習済み ViT (ImageNet-21k) が near-OOD タスクで BiT と MLP-Mixer のベースラインを上回る。
  • 1–10 のラベル付きOOD例を各クラスにつけた few-shot 外れ値露出は、fine-tuned ViT の特徴を用いると CIFAR-100 対 CIFAR-10 で約 AUROC 99% を達成。
  • ゲノミクスOOD検出は、MSP と Mahalanobis 距離を用いた事前学習+ファインチューニングトランスフォーマー(BERT)で 66% から 77% へ改善。
  • ゼロショットOOD検出は、outlierクラス名のみを使ってCLIP風に実現すると CIFAR-100 対 CIFAR-10 で AUROC 94.8%、いくつかの遠距離OODタスクではほぼ完璧な AUROC(例: 99.6%/99.9%)。
  • ゲノミクスOOD は pre-trained+fine-tuned トランスフォーマーで AUROC が高く、77.49% Mahalanobis, 73.53% MSP、in-distribution 精度 89.84% に。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。