QUICK REVIEW

[論文レビュー] OpenOOD v1.5: Enhanced Benchmark for Out-of-Distribution Detection

Jingyang Zhang, Jingkang Yang|arXiv (Cornell University)|Jun 15, 2023

Mobile Crowdsensing and Crowdsourcing被引用数 19

ひとこと要約

OpenOOD v1.5 は、OOD 検出ベンチマークを大規模（ImageNet）および全スペクトル設定に拡張し、リーダーボードと軽量な評価ツールを追加し、40 の手法にわたる広範な実証的洞察を提供します。

ABSTRACT

Out-of-Distribution (OOD) detection is critical for the reliable operation of open-world intelligent systems. Despite the emergence of an increasing number of OOD detection methods, the evaluation inconsistencies present challenges for tracking the progress in this field. OpenOOD v1 initiated the unification of the OOD detection evaluation but faced limitations in scalability and scope. In response, this paper presents OpenOOD v1.5, a significant improvement from its predecessor that ensures accurate and standardized evaluation of OOD detection methodologies at large scale. Notably, OpenOOD v1.5 extends its evaluation capabilities to large-scale data sets (ImageNet) and foundation models (e.g., CLIP and DINOv2), and expands its scope to investigate full-spectrum OOD detection which considers semantic and covariate distribution shifts at the same time. This work also contributes in-depth analysis and insights derived from comprehensive experimental results, thereby enriching the knowledge pool of OOD detection methodologies. With these enhancements, OpenOOD v1.5 aims to drive advancements and offer a more robust and comprehensive evaluation benchmark for OOD detection research.

研究の動機と目的

公平な手法間比較を可能にするため、OOD 検出評価を統一・標準化する。
大規模データセット（ImageNet の variants）への評価を拡張し、全スペクトラム OOD 検出を検討する。
使いやすさと再現性を向上させる新しいツール（リーダーボードと軽量評価ツール）を提供する。
実証的な結果を分析し、手法の有効性、データ拡張、アーキテクチャ選択に関する洞察を導く。
OOD 検出研究の今後の方向性に関する指針を提供する。

提案手法

ID/OOD を明確にし、Near-OOD と Far-OOD の分割を含む、標準および全スペクトル OOD 検出の正式な評価プロトコル。
テストセットのリークを防ぎ、公正なハイパーパラメータチューニングを保証するため、ID および OOD の検証セットを含める。
6 つのデータセット（CIFAR-10/100、ImageNet-200/1K）にわたるベンチマークと、約 40 の手法。
統一されたフレームワーク内で、ポストホック、トレーニング時正則化、およびデータ拡張ベースの手法をサポート。
オンライン ImageNet-1K リーダーボードと、簡単で再現可能な評価を可能にする軽量 Evaluator。

Figure 1: Summarizing evaluation settings of 100+ recent OOD detection and OSR works from NeurIPS, AAAI, ICLR, CVPR, ICML, and ICCV/ECCV (zoom in to view better). Each box stands for a paper. Within the box, each column shows the ID dataset and corresponding OOD datasets which are represented by the

実験結果

リサーチクエスチョン

RQ1小規模（CIFAR）と大規模（ImageNet）ID データセットで、OOD 検出手法はどのように性能を示すか？
RQ2共変量シフトを含む全スペクトルの影響が OOD 検出の性能にどう影響するか？
RQ3データ拡張は一貫して OOD 検出を改善するのか、ポストホック手法とどのように相互作用するのか？
RQ4ベンチマーク全体で支配的な単一の勝者は存在するのか、それともデータセットと設定によって性能は異なるのか？
RQ5アーキテクチャの選択（例：ResNet vs ViT/Swin）は OOD 検出の有効性にどう影響するか？

主な発見

すべてのベンチマークとデータセットを通じて支配的な単一の勝者は存在しない。
データ拡張は OOD 検出性能を一貫して向上させ、強力なポストプロセッサと組み合わせると利得が拡大する。
Near-OOD は Far-OOD より難易度が高く、Near-OOD の進展はあるが Far-OOD の改善には遅れている。
Vision transformers は ImageNet 設定において一貫して ResNets を上回らない。
全スペクトラム検出はほとんどの手法で著しい性能低下を引き起こし、これは重要な未解決問題として浮上する；MOS は全スペクトラム設定で比較的堅牢な性能を示す。
Post-hoc 手法とデータ拡張が、大規模設定（ImageNet-1K）でトレーニング時正則化を上回すことが多い。

Figure 2: Left: An example of evaluting ImageNet-1K models in a few lines with our . Right: Screenshot of top entries on our ImageNet-1K leaderboard hosted at %urlshttps://zjysteven.github.io/OpenOOD/ . Zoom in to view better.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。