[論文レビュー] Simple Open-Vocabulary Object Detection with Vision Transformers
OWL-ViTは、画像–テキスト事前学習済みのビジョントランスフォーマーを、最小限のアーキテクチャ変更でオープンボキャブラリ物体検出に移行させ、ゼロショット、ワンショット(画像条件付)、およびテキスト条件付き検出を強力なスケーリング特性とともに実現します。
Combining simple architectures with large-scale pre-training has led to massive improvements in image classification. For object detection, pre-training and scaling approaches are less well established, especially in the long-tailed and open-vocabulary setting, where training data is relatively scarce. In this paper, we propose a strong recipe for transferring image-text models to open-vocabulary object detection. We use a standard Vision Transformer architecture with minimal modifications, contrastive image-text pre-training, and end-to-end detection fine-tuning. Our analysis of the scaling properties of this setup shows that increasing image-level pre-training and model size yield consistent improvements on the downstream detection task. We provide the adaptation strategies and regularizations needed to attain very strong performance on zero-shot text-conditioned and one-shot image-conditioned object detection. Code and models are available on GitHub.
研究の動機と目的
- 画像レベルの対照学習をオープンボキャブラリ物体検出へ転移する、シンプルでスケーラブルなレシピを示す。
- モデルサイズと画像–テキスト事前学習を増やすと下流検出性能が向上することを示す。
- 統合されたエンドツーエンドのフレームワーク内で、オープンボキャブラリーのテキスト条件付きおよび画像条件付き(ワンショット)検出を実現する。
提案手法
- 画像エンコーダとして標準的なビジョントランスフォーマーを使用し、言語埋め込みには対応するテキストトランスフォーマーを用いる。
- 最終トークンのプーリングを削除し、各画像トークンに軽量な分類ヘッドと境界ボックスヘッドを取り付ける。
- オープンボキャブラリ分類を実現するため、各オブジェクトのクエリとしてテキストエンコーダから得られるテキスト由来埋め込みを使用する(画像とテキストストリームの融合は行わない)。
- 長尾/オープンボキャブラリデータに適応したDETR風のビ bipartite マッチング損失(焦点付きシグモイド交差エントロピー、正/負のアノテーション、疑似負例)で訓練する。
- 検出データセット上で画像エンコーダとテキストエンコーダの両方をエンドツーエンドで微調整する;クエリはワン-/少数ショット検出のためにテキスト由来または画像由来のものを使用できる。
実験結果
リサーチクエスチョン
- RQ1画像–テキスト対照学習で事前学習したシンプルなViTベースのアーキテクチャと最小限の検出ヘッドで、オープンボキャブラリ検出を強力に達成できるか。
- RQ2モデルサイズと事前学習期間が検出への転移にどう影響するか、ゼロショットおよび少数ショットのオープンボキャブラリ性能を最適化する設計選択は何か。
- RQ3アーキテクチャ変更なしで、画像埋め込みをクエリとして用い、画像条件付きのワン-/少数ショット検出をサポートできるか。
- RQ4ファインチューニングを安定させ、オープンボキャブラリ転送を最大化するために必要な正則化、データ拡張、データ使用戦略は何か。
主な発見
- オープンボキャブラリ検出はLVISのオープンボキャブラリおよびゼロショット設定で最先端と競合する水準を達成し、まれなカテゴリの性能が高い(例:特定構成でAPrareが23.3まで、より大きなViTバックボーンを使用した場合の全体LVIS APも向上)。
- テキストベースのオープンボキャブラリ検出は、より大きく、事前学習が適切に行われたViTと長い画像–テキスト事前学習の恩恵を受ける。高い画像レベルゼロショット精度は検出転移と相関するが、それ自体だけでは十分ではない。
- ワンショットの画像条件付き検出は従来の研究より大幅に優れており、10個の条件クエリで最大AP50が55.1、COCO分割で単一クエリ設定で49.1–49.9 AP50を達成。
- 方法は複数のクエリ例から埋め込みを平均化することで画像条件付き少数ショット検出をサポートし、さらなる性能向上をもたらす。
- スケーリング分析では、純粋なViTアーキテクチャは大規模モデルの場合ハイブリッドよりスケールが良く、長い事前学習と大規模モデルの組み合わせは、数十億の画像–テキストペアを超えるオブジェクト検出の改善を継続的にもたらす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。