[論文レビュー] Multi-Modal Classifiers for Open-Vocabulary Object Detection
本論文は、LLM生成の説明と画像の標本を用い、単純な加算による融合を経て、テキストベース・ビジョンベース・マルチモーダルのオープンボキャブラリー物体検出(OVOD)用分類器を構築し、LVISで最先端の結果を示す。
The goal of this paper is open-vocabulary object detection (OVOD) $\unicode{x2013}$ building a model that can detect objects beyond the set of categories seen at training, thus enabling the user to specify categories of interest at inference without the need for model retraining. We adopt a standard two-stage object detector architecture, and explore three ways for specifying novel categories: via language descriptions, via image exemplars, or via a combination of the two. We make three contributions: first, we prompt a large language model (LLM) to generate informative language descriptions for object classes, and construct powerful text-based classifiers; second, we employ a visual aggregator on image exemplars that can ingest any number of images as input, forming vision-based classifiers; and third, we provide a simple method to fuse information from language descriptions and image exemplars, yielding a multi-modal classifier. When evaluating on the challenging LVIS open-vocabulary benchmark we demonstrate that: (i) our text-based classifiers outperform all previous OVOD works; (ii) our vision-based classifiers perform as well as text-based classifiers in prior work; (iii) using multi-modal classifiers perform better than either modality alone; and finally, (iv) our text-based and multi-modal classifiers yield better performance than a fully-supervised detector.
研究の動機と目的
- 推論時の指定で訓練を超えるカテゴリを検出するOVODを動機づける。
- 言語説明、画像標本、およびそれらの融合という3つの分類器ソースを提案する。
- LLMsによるテキスト説明が、名前ベースのプロンプトより識別力を向上させることを示す。
- 複数の標本からビジュアルアグリゲータを用いて構築したビジョンベース分類器を実証する。
- マルチモーダル融合が、いずれの単一モダリティよりも優れたOVOD性能をもたらすことを証明する。
提案手法
- 各クラスを表す説明をLLMに促し、CLIPのテキスト埋め込みを平均してテキストベースの分類器を構築する。
- 複数の画像標本の埋め込みを、トランスフォーマー系の視覚アグリゲータで集約してビジョンベースの分類器を構築する。
- 情報NCEを用いてImageNet-21k-P上で視覚アグリゲータをオフライン学習し、識別的な埋め込みを学習する。
- テキストベースとビジョンベースの分類器を、ベクトルをL2正規化して加算することでマルチモーダル分類器として融合する。
- 3つの分類器をCenterNet2ベースの検出器に統合し、LVISでOVOD評価を行う。
- 従来のOVODメソッドと比較し、設計選択を正当化するアブレーションを実施する(例: 平均アグリゲータ vs. トランスフォーマーアグリゲータ)。
実験結果
リサーチクエスチョン
- RQ1クラス名だけを用いる場合と比較して、LLM生成のテキスト説明がテキストベースのOVOD分類器をより優位にするのか?
- RQ2検出器を微調整せずに、複数の画像標本から堅牢なOVOD分類器を効果的に作れるか?
- RQ3テキストとビジョン情報のマルチモーダル融合は、OVODにおいて単一モダリティのいずれよりも優れているか?
- RQ4テキストベースおよびマルチモーダル OVOD分類器は、LVISで完全に監視付き検出器を上回るか?
- RQ5弱教師なし学習として追加の画像レベルデータ(IN-L)を用いると、OVODの結果はどのように移行するか?
主な発見
| Model | Extra Data | APr | mAP |
|---|---|---|---|
| ViLD | - | 16.1 | 22.5 |
| Detic | - | 16.3 | 30.0 |
| ViLD-ens | - | 16.6 | 25.5 |
| OV-DETR | - | 17.4 | 26.6 |
| F-VLM | - | 18.6 | 24.2 |
| Ours (Text-Based) | - | 19.3 | 30.3 |
| Ours (Vision-Based) | - | 18.3 | 29.2 |
| Ours (Multi-Modal) | - | 19.3 | 30.6 |
| RegCLIP | - | 17.1 | 28.2 |
| OWL-ViT | - | 19.7 | 23.3 |
| Detic | IN-L | 24.6 | 32.4 |
| Ours (Text-Based) | IN-L | 25.8 | 32.7 |
| Ours (Vision-Based) | IN-L | 23.8 | 31.3 |
| Ours (Multi-Modal) | IN-L | 27.3 | 33.1 |
| Fully-Supervised | - | 25.5 | 31.1 |
- テキストベースの分類器は、LVISオープンボキャブラリ検出ベンチマークで従来のOVOD手法を上回る。
- 学習済みの視覚アグリゲータを用いたビジョンベースの分類器は、テキストベースの分類器と同等の性能を発揮する。
- マルチモーダル分類器は最良のOVOD性能を示し、いずれのモダリティ単独を上回る。
- IN-Lデータを用いると、テキストベースおよびマルチモーダル分類器がDeticを上回り、LVISで完全監視下のベースラインを超えることがある。
- 提案手法は、LVIS-valにおけるResNet-50ベースのOVODモデルの中で、素の設定とIN-L設定の双方で最先端のAPrとmAPを達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。