QUICK REVIEW

[論文レビュー] Scaling Open-Vocabulary Object Detection

Matthias Minderer, Alexey A. Gritsenko|arXiv (Cornell University)|Jun 16, 2023

Multimodal Machine Learning Applications被引用数 28

ひとこと要約

本論文は OWLv2 と OWL-ST を導入し、Web-scale 自己学習と最小限のフィルタリングを用いてオープンボキャブラリ物体検知をスケールさせ、LVIS の希少クラスで最先端の結果を達成。L/14 の LVIS rare に対するゼロショットの改善が最大で 44.6% mAP、ViT-G/14 で 47.2% を達成。

ABSTRACT

Open-vocabulary object detection has benefited greatly from pretrained vision-language models, but is still limited by the amount of available detection training data. While detection training data can be expanded by using Web image-text pairs as weak supervision, this has not been done at scales comparable to image-level pretraining. Here, we scale up detection data with self-training, which uses an existing detector to generate pseudo-box annotations on image-text pairs. Major challenges in scaling self-training are the choice of label space, pseudo-annotation filtering, and training efficiency. We present the OWLv2 model and OWL-ST self-training recipe, which address these challenges. OWLv2 surpasses the performance of previous state-of-the-art open-vocabulary detectors already at comparable training scales (~10M examples). However, with OWL-ST, we can scale to over 1B examples, yielding further large improvement: With an L/14 architecture, OWL-ST improves AP on LVIS rare classes, for which the model has seen no human box annotations, from 31.2% to 44.6% (43% relative improvement). OWL-ST unlocks Web-scale training for open-world localization, similar to what has been seen for image classification and language modelling.

研究の動機と目的

Web データからの豊富な弱教師付き情報でオープンバウキャブラリ検出のスケーリングを動機づける。
最小限のフィルタリングとデータ中心のラベル空間を用いるスケーラブルな自己学習レシピ（OWL-ST）を開発する。
トレーニング効率を改善し、計算単位あたりに見られる画像数を最大化する（トークンドロップ、インスタンス選択、モザイク）。
LVIS、ODinW、野外データセットを横断してオープンボキャブラリ検出を評価し、一般化と微調整効果を測定する。

提案手法

WebLI (10B image-text pairs) を偽注釈の弱教師付きとして使用する。
ラベル空間戦略を二つ実験する：人間が選定した固定語彙と、画像テキストから機械生成された N-grams。
最小限のフィルタリングを適用（信頼度閾値処理、各画像につき少なくとも 0.3 を超えるものが1つ以上ある場合は 0.1 以上の偽注釈をすべて保持）。
CLIP/SigLIP ビジョン-ランゲージバックボーンから初期化した検出ヘッドを用いて OWL-ViT スタイルの検出を行い、偽注釈で自己学習、その後 LVIS base での微調整を任意で実施。
訓練効率の改善: パッチ分散によるトークンドロップ（約50%削減）、オブジェクト性ヘッドで上位 ~10% のトークンを選択、モザイク（最大6x6グリッド）でバッチあたりの有効サンプル数を増加、その他の大規模 Transformer 訓練実践。
モデルバリアント OWLv2 は例ごとの FLOPs を約 50%削減し、OWL-ViT に対して約 2xのスループット向上を達成；推論時も前と同じバックボーンとヘッドを使用する。

実験結果

リサーチクエスチョン

RQ1Web-scale 弱教師付きだけで人間の注釈付きボックスなしでオープンバキャブラリ検出をどこまでスケールできるか？
RQ2ラベル空間設計（ curated vs. machine-generated vs. mixed ）が unseen クラスや野外データセットへの一般化に与える影響は？
RQ3偽注釈のフィルタ링戦略は、スケール時のバイアスと分散のトレードオフを最適化できるのか？
RQ4トークンドロップ、インスタンス選択、モザイクといった効率化がスケール時の検出精度に与える影響は？
RQ5微調整がオープンボキャブラリの性能と分布の頑健性に与える効果はどれほどで、アンサンブルはトレードオフを緩和できるか？

主な発見

Method	Backbone	Self-training data	Self-training vocabulary	Human box annotations	LVIS AP_rare	LVIS AP_val_all	LVIS AP_val_rare	ODinW_AP_mean	Notes
OWL-ST	CLIP B/16	WebLI	N-grams	O+VG	29.6	35.4	27.0	-3.2	Open-vocabulary without fine-tuning (from Table 1, row 11)
OWL-ST	CLIP L/14	WebLI	N-grams	O+VG	38.1	39.0	33.5	-	Open-vocabulary without fine-tuning (row 12)
OWL-ST	SigLIP G/14	WebLI	N-grams	O+VG	37.8	40.9	33.7	-	Open-vocabulary without fine-tuning (row 13)
OWL-ST+FT	CLIP B/16	WebLI	N-grams	O+VG , LVIS_base	47.2	37.8	41.8	-	Best open-vocabulary with LVIS_base fine-tuning (row 14)
OWL-ST+FT	CLIP L/14	WebLI	N-grams	O+VG , LVIS_base	54.1	46.1	49.4	-	Best LVIS_base fine-tuning open-vocabulary (row 15)
OWL-ST+FT	SigLIP G/14	WebLI	N-grams	O+VG , LVIS_base	51.3	50.9	47.0	-	Best LVIS_base fine-tuning open-vocabulary (row 16)

WebLI データでの機械生成 N-gram プロンプトを使った OWL-ST は、人間のボックス注釈なしでも強いオープンボキャブラリ性能を発揮する。
LVIS base 微調整とともに、OWL-ST+FT は ViT-G/14 で LVIS mAPRare を 47.2%、ViT-L/14 で 44.6% に達し、未見クラスに対する従来技術より大きな利得を示す。
スケール時の自己学習は、妥当な計算予算で大きな利益を生み出し、画像レベルモデルと同様のスケーリング傾向に従い、より大きなモデルはより多くのデータから恩恵を受ける。
純粋に機械生成のラベル空間（N-grams）は、固定されたキュレーション語彙より unseen および野外データへ一般化しやすく、混合ラベル空間は設定を超えて良好に機能する。
微調整はターゲットデータセットの性能を向上させる一方、オープンワールド/一般化性能を低下させる可能性があり、事前・事後微調整モデルの重みスペースアンサンブルで緩和できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。