[論文レビュー] Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection
本論文は、オブジェクト中心の領域と言語の整合と、領域ベースの蒸留と画像レベルの監督を統合する重み転送機構を提案し、COCOとLVISにおけるオープンボキャブラリ検出で高い成果を達成します。
Existing open-vocabulary object detectors typically enlarge their vocabulary sizes by leveraging different forms of weak supervision. This helps generalize to novel objects at inference. Two popular forms of weak-supervision used in open-vocabulary detection (OVD) include pretrained CLIP model and image-level supervision. We note that both these modes of supervision are not optimally aligned for the detection task: CLIP is trained with image-text pairs and lacks precise localization of objects while the image-level supervision has been used with heuristics that do not accurately specify local object regions. In this work, we propose to address this problem by performing object-centric alignment of the language embeddings from the CLIP model. Furthermore, we visually ground the objects with only image-level supervision using a pseudo-labeling process that provides high-quality object proposals and helps expand the vocabulary during training. We establish a bridge between the above two object-alignment strategies via a novel weight transfer function that aggregates their complimentary strengths. In essence, the proposed model seeks to minimize the gap between object and image-centric representations in the OVD setting. On the COCO benchmark, our proposed approach achieves 36.6 AP50 on novel classes, an absolute 8.2 gain over the previous best performance. For LVIS, we surpass the state-of-the-art ViLD model by 5.0 mask AP for rare categories and 3.4 overall. Code: https://github.com/hanoonaR/object-centric-ovd.
研究の動機と目的
- オブジェクト中心と画像中心のビジュアル言語(VL)表現の間のギャップを、オープンボキャブラリ検出(OVD)で埋める。
- 領域ベースの蒸留を通じてCLIPへ領域レベルの言語埋め込みを地盤づけし、疑似ラベルによる画像レベルの監督を活用する。
- 2つの監督信号を、言語マッピングにおけるオブジェクト中心の整合性を保持する重み転送機構と組み合わせる。
- 事前学習済みの多モーダルViTからの疑似ボックス提案を用いて検出器の語彙を拡張し、基底クラスの性能を損なわない。
提案手法
- 領域ベースの知識蒸留(RKD)は、事前学習済み多モーダルViT(MViT)からのクラス非依存提案を用いて、検出器の領域埋め込みをCLIPの領域表現と整合させる。
- 2つの蒸留損失を用いる: (i) 検出器の領域埋め込みとCLIP領域埋め込みとの間の点ごとのL1損失、 (ii) ペアワイズ類似度行列上の埋め込み間関係マッチング(IR M)損失。
- 疑似ラベリング(PIS)は、D_clsのラベルに対してMViTからクラス特異的な提案を生成し、上位の提案を疑似ボックスラベルとして選択することで画像レベルの監督を地盤づけする。
- 重み転送関数W_Tは、W_PをW_Dに条件付ける二層MLPとスキップ接続により、領域ベースVLマッピングを画像レベルVLマッピングと結びつける。
- 訓練は段階的戦略に従う:まずRKDによって領域と言語の埋め込みを整合させ、次に重み転送を用いた弱い監督を取り入れて言語におけるオブジェクト中心の整合性を保持する。
- 最終目的関数は、RKD損失をL_rpn、L_reg、L_clsと、アルファでスケールされた弱い監督損失と組み合わせる。
実験結果
リサーチクエスチョン
- RQ1オープンボキャブラリ検出におけるオブジェクト中心の領域と言語の整合をどのように改善できるか?
- RQ2事前学習済みの多モーダルViTからの疑似ボックスラベルは検出語彙と新規クラスへの一般化を改善できるか?
- RQ3領域条件付きの重み転送は領域ベースの蒸留と弱い画像レベル監督の効果的な統合を可能にするか?
- RQ4先行手法と比較した場合、提案されたオブジェクト中心のOVDフレームワークのCOCOとLVISでの利得はどの程度か?
主な発見
| 手法 | AP_基礎 | AP_新規 | AP |
|---|---|---|---|
| 監督あり(ベース) | 1.7 | 53.2 | 39.6 |
| Base + 領域ベース蒸留(RKD) | 21.2 | 54.7 | 45.9 |
| Base + 画像レベル監督 with 疑似ボックス (PIS) | 30.4 | 52.6 | 46.8 |
| RKD + PIS | 31.5 | 52.8 | 47.2 |
| RKD + PIS + 重み転送(当手法) | 36.6 | 54.0 | 49.4 |
- COCOでは、新規クラスで36.6 APを達成し、前のベストに対して絶対値で8.2の改善。
- COCOでは、基礎クラスAPは重み転送で54.0と高く保たれ(メイン表では総合49.4)。
- LVISでは、希少カテゴリのマスクAPで最先端ViLDを5.0上回り、総合でも3.4上回る(報告されたスケジュールの下で)。
- RKDは、COCOの新規クラスで19.5 APの利得、基礎クラスで1.5 APの利得を監督付きベースラインより得る。
- 疑似ボックスラベリング(PIS)は新規クラスのAPを28.7ポイント改善し、新規カテゴリへの強い一般化を示す。
- 重み転送機構はRKDとPISを効果的に組み合わせ、素朴な組み合わせを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。