QUICK REVIEW

[論文レビュー] F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models

Weicheng Kuo, Yin Cui|arXiv (Cornell University)|Sep 30, 2022

Multimodal Machine Learning Applications被引用数 37

ひとこと要約

F-VLMは凍結されたビジョン-ランゲージモデル上にオープンボキャブラリ検出器を構築し、検出器ヘッドのみを訓練し、推論時に検出器とVLMの出力を融合することで、LVISの最先端結果を、訓練を大幅に高速化しつつ達成する。

ABSTRACT

We present F-VLM, a simple open-vocabulary object detection method built upon Frozen Vision and Language Models. F-VLM simplifies the current multi-stage training pipeline by eliminating the need for knowledge distillation or detection-tailored pretraining. Surprisingly, we observe that a frozen VLM: 1) retains the locality-sensitive features necessary for detection, and 2) is a strong region classifier. We finetune only the detector head and combine the detector and VLM outputs for each region at inference time. F-VLM shows compelling scaling behavior and achieves +6.5 mask AP improvement over the previous state of the art on novel categories of LVIS open-vocabulary detection benchmark. In addition, we demonstrate very competitive results on COCO open-vocabulary detection benchmark and cross-dataset transfer detection, in addition to significant training speed-up and compute savings. Code will be released at the https://sites.google.com/view/f-vlm/home

研究の動機と目的

蒸留不要、検出に特化した事前学習不要、弱教師あり学習不要でオープンボキャブラリ物体検出を実現。
局所性を保持し領域レベルの分類能力を提供する凍結VLMの特徴を活用。
LVISのオープンボキャブラリ性能を強く示し、COCOやObjects365など他データセットへの転移性と、顕著な訓練効率を競争力ある水準で示す。
バックボーンの容量拡張性を示し、実用的な訓練・リソース節約と転移性を提供。

提案手法

凍結されたVLMバックボーンに検出器ヘッド（FPN付きMask R-CNN）を接続し、最終分類器をベースカテゴリのテキスト埋め込みに置換する。
テスト時にオープンボキャブラリ認識のため領域レベルの埋め込みを得るためにVLMプーリング層を用い、テキスト埋め込みとのコサイン類似度を計算する。
領域ごとに検出器ベースのスコアとVLMベースのスコアを、ベースカテゴリと新規カテゴリの語彙ごとの重み付けを用いた幾何平均の組み合わせで融合する。
オープンボキャブラリ設定で新規オブジェクトの局在化を可能にするため、クラス非依存のボックス回帰とマスク予測ヘッドを適用する。
凍結されたVLMバックボーンを維持しつつ検出器ヘッドのみを訓練し、推論時に検出器とVLMの予測を組み合わせて最終的なOpen-Vocabularyスコアを得る。

実験結果

リサーチクエスチョン

RQ1凍結されたVision-Language Modelのバックボーンは、知識蒸留や検出に特化した事前学習を行わずにオープンボキャブラリ物体検出をサポートできるか？
RQ2オープンボキャブラリ検出のために、検出器の出力とVLMベースの領域分類を融合する最良の戦略は何か？
RQ3バックボーン容量を拡張すると、オープンボキャブラリ検出性能と訓練効率はどう変化するか？
RQ4新規語彙に対するファインチューニングなしで、他データセット（COCO、Objects365）へ方法を転移できるか？

主な発見

LVISでは、F-VLMがシステムレベルで前任の最先端オープンボキャブラリ検出を6.5 mask AP_r上回る。
バックボーン容量の拡大に伴い性能がスケールし、LVISで最大のバックボーンに対して+14.2 AP_rを達成。
訓練計算コストの節約は大幅で、同等ベースラインの下でViLDより最大226倍速い。
COCOでは競争力があり、Objects365では転移設定でいくつかのベースラインを上回る。ViLDに対する gainsはCOCOで+3.2 AP、Objects365で+5.9 AP、またいくつかの比較でDetProより+4.9/+5.6。
LVISで訓練しCOCO/Objects365でファインチューニングなしに評価すると強力な転移検出を達成し、データセットを跨ぐ一般化能力を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。