QUICK REVIEW

[論文レビュー] YOLO-World: Real-Time Open-Vocabulary Object Detection

Tianheng Cheng, Lin Song|arXiv (Cornell University)|Jan 30, 2024

Natural Language Processing Techniques被引用数 26

ひとこと要約

YOLO-Worldは再パラメータ可能なVision-Language Path Aggregation Networkと領域テキスト対照事前学習を統合することで、オープンボキャブラリ検出を拡張し、LVISでのリアルタイムゼロショット検出と下流タスクへの高い性能を実現します。

ABSTRACT

The You Only Look Once (YOLO) series of detectors have established themselves as efficient and practical tools. However, their reliance on predefined and trained object categories limits their applicability in open scenarios. Addressing this limitation, we introduce YOLO-World, an innovative approach that enhances YOLO with open-vocabulary detection capabilities through vision-language modeling and pre-training on large-scale datasets. Specifically, we propose a new Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate the interaction between visual and linguistic information. Our method excels in detecting a wide range of objects in a zero-shot manner with high efficiency. On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on V100, which outperforms many state-of-the-art methods in terms of both accuracy and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable performance on several downstream tasks, including object detection and open-vocabulary instance segmentation.

研究の動機と目的

実時間シナリオで固定語彙を超えるオープンボキャブラリ物体検出の動機付け。
オープンボキャブラリ検出のために視覚と言語特徴を効率的に融合するRepVL-PANを提案。
オープンボキャブラリ能力を拡張する領域-文字列対照事前学習スキームを開発。
エッジ適合推論のために再パラメータ化を介してオフライン語彙を実現。
オープンボキャブラリのゼロショット性能とCOCO・LVISなどの下流タスクへの転移性能を示す。

提案手法

視覚バックボーンとしてYOLOv8ベースの検出器を使用。
入力テキストをテキスト埋め込みに変換するCLIPベースのテキストエンコーダを組み込む。
Text-guided CSPLayerとImage-Pooling Attentionを用いて画像特徴とテキスト埋め込みの異種モダリティ融合を可能にするRepVL-PANを導入。
検出・グ grounding・画像-テキストデータから得られる領域-テキストペアを用いた領域-テキスト対照損失で事前学習を定式化し、pseudo labelingを用いて画像-テキスト領域-テキストペアを拡張。
オフライン語彙を用いたプロンプト-検出推論パラダイムを採用して推論効率を改善し、デプロイ時にはテキスト埋め込みをモデル重みへ再パラメータ化。
下流タスク（物体検出、オープンボキャブラリ版インスタンスセグメンテーション）向けに選択的に微調整し、ゼロショットと微調整性能を評価。

実験結果

リサーチクエスチョン

RQ1軽量検出器（YOLOファミリ）が、重いオープンボキャブラリモデルと比較してリアルタイムで競争力のあるオープンボキャブラリ検出を達成できるか。
RQ2RepVL-PANを介した視覚と言語の事前学習を統合することが、LVISのような大規模で多様な語彙（例：LVIS 1203カテゴリ）へのゼロショット一般化を改善するか。
RQ3領域-テキスト対照学習は、検出・グ grounding・画像-テキストデータを大規模に用いてオープン語彙の学習に有効か。
RQ4プロンプト-検出戦略を用いたオフライン語彙が、高速性を維持しつつオープンボキャブラリ機能を保持できるか。
RQ5下流タスク（COCO, LVIS）での微調整が、事前学習済みオープンボキャブラリ表現とどのように相互作用するか。

主な発見

YOLO-World-LはLVISで35.0 APを達成し、V100で52.0 FPSのゼロショット評価で、複数の最新オープンボキャブラリ検出器を上回った。
Objects365、GoldG、CC3Mを用いた事前学習（pseudo labeling経由）はLVISのゼロショットAPを改善し、データが大きく多様であるほど特に希少カテゴリで高いゲインをもたらす。
Text-guided CSPLayerとImage Pooling Attentionを備えたRepVL-PANは、YOLOv8-PANベースに比べLVISのゼロショットAPを約1.1ポイント向上させ、希少カテゴリでより大きな利得をもたらす。
CLIPベースのテキストエンコーダはオープンボキャブラリ検出でBERTベースより優れており、事前学習中にCLIPを凍結する方がファインチューニングよりLVISのゼロショット結果が一般的に良い。
ファインチューニングでは、YOLO-World系はCOCOとLVISの性能が高く、LVISベースの微調整はLVIS APとAPrを大幅に向上させつつ、オープンボキャブラリ挙動を維持。
モデルは選択的な微調整でオープンボキャブラリのインスタンスセグメンテーションをサポートし、セグメンテーションヘッドを微調整してもゼロショット能力を維持。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。