Skip to main content
QUICK REVIEW

[論文レビュー] Three ways to improve feature alignment for open vocabulary detection

Relja Arandjelović, Alex Andonian|arXiv (Cornell University)|Mar 23, 2023
Multimodal Machine Learning Applications被引用数 9
ひとこと要約

この論文は、ゼロショットオープンボキャブラリ検出のための vision–language feature alignment を強化する3つの手法を紹介する: (1) テキスト埋め込みを増強する効率的なテキスト拡張、 (2) 初期化時に最終バックボーン特徴を検出ヘッドへ伝播させる訓練可能なゲート付きショートカットを備えた alignment-preserving アーキテクチャ、(3) 大規模な画像–テキストデータセットを用いたバッチネガティブによる自己訓練;これらを合わせることで LVIS-R mAPall の最先端を達成し、mAPrare でも競争力を示す。

ABSTRACT

The core problem in zero-shot open vocabulary detection is how to align visual and text features, so that the detector performs well on unseen classes. Previous approaches train the feature pyramid and detection head from scratch, which breaks the vision-text feature alignment established during pretraining, and struggles to prevent the language model from forgetting unseen classes. We propose three methods to alleviate these issues. Firstly, a simple scheme is used to augment the text embeddings which prevents overfitting to a small number of classes seen during training, while simultaneously saving memory and computation. Secondly, the feature pyramid network and the detection head are modified to include trainable gated shortcuts, which encourages vision-text feature alignment and guarantees it at the start of detection training. Finally, a self-training approach is used to leverage a larger corpus of image-text pairs thus improving detection performance on classes with no human annotated bounding boxes. Our three methods are evaluated on the zero-shot version of the LVIS benchmark, each of them showing clear and significant benefits. Our final network achieves the new stateof-the-art on the mAP-all metric and demonstrates competitive performance for mAP-rare, as well as superior transfer to COCO and Objects365.

研究の動機と目的

  • 視覚とテキスト特徴の整合を改善してゼロショットオープンボキャブラリ検出を支援する。
  • 検出器の訓練中に見えないクラスの忘却を緩和する。
  • 大規模LM埋め込みを扱う際の訓練効率を向上させ、メモリ使用を削減する。
  • 自己訓練を通じて大量の画像-テキストデータを活用し、見えないクラスの性能を向上させる。

提案手法

  • 言語モデル由来のテキスト埋め込みを過学習を防ぎ、64通りのバリアントまたは複数のテンプレートでメモリ使用を減らす。
  • Alignment Preserving Architecture を導入し、初期化時に検出ヘッドへ最終バックボーン特徴を伝搬させるゲート付きショートカットで整合性を保持。
  • CC12M のキャプションを用いたバッチネガティブによる自己訓練を適用し、LVIS-R と疑似ラベルデータを組み合わせた3Waysでより強力なオープンボキャブラリ検出器を訓練する。

実験結果

リサーチクエスチョン

  • RQ1テキスト埋め込みを過学習から守りつつ、過大なメモリや計算を要さずにどう拡張できるのか?
  • RQ2検出器の訓練開始時に視覚–テキストの整合を保持または向上させるようなアーキテクチャの変更は可能か?
  • RQ3大規模な画像–テキストデータセットからの疑似ラベルを用いた自己訓練は、ゼロショットの見えないクラス検出を改善するか?

主な発見

MethodBackbone#ParamsSelf-trainingmAPallmAPraremAPcommmAPfreq
Detic [46] open-voc.R5026M30.417.427.832.4
1Ways [this work]NFNet-F071M32.1 ± 0.3118.9 ± 1.1329.5 ± 0.1540.9 ± 0.08
2Ways [this work]NFNet-F071M33.8 ± 0.1520.9 ± 0.3432.4 ± 0.2041.0 ± 0.05
3Ways [this work]NFNet-F071M35.7 ± 0.2025.6 ± 1.1234.2 ± 0.0541.8 ± 0.02
0Ways [this work]NFNet-F6440M41.6 ± 0.1721.1 ± 0.4042.9 ± 0.1949.2 ± 0.09
1Ways [this work]NFNet-F6440M43.5 ± 0.1227.6 ± 0.8044.9 ± 0.1048.8 ± 0.01
2Ways [this work]NFNet-F6440M43.5?27.6 ± 0.8044.9 ± 0.1048.8 ± 0.01
3Ways [this work]NFNet-F6440M44.6 ± 0.3130.1 ± 1.8346.0 ± 0.1749.3 ± 0.08
  • ドロップアウトと64埋め込みバリアント(または複数テンプレート)によるテキスト拡張は、見えないクラスの mAP を大幅に改善し、メモリ使用を削減する。
  • Alignment Preserving Architecture はバックボーンとヘッド間で一貫して mAP を改善し、特に mAPrare を向上させる。
  • バッチネガティブを用いる自己訓練(3Ways)は、mAPall と mAPrare の両方で大きな利益を生み出し、特に見えないクラスで効果が高い。
  • NFNet-F6 バックボーンと 3Ways の組み合わせは、44.6 mAPall と 30.1 mAPrare を達成し、従来手法を大きく上回る。
  • LVIS-R 転移においても本手法は COCO および Objects365 への良好な一般化を示す強力な性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。