[論文レビュー] Tag2Text: Guiding Vision-Language Model via Image Tagging
Tag2Textは、注釈なしの画像-テキストペアから学習した画像タグ付けを導入し、ビジョンと言語の事前学習を導くことで、強力なゼロショットタグ付けと生成・整合のタスクを改善します。
This paper presents Tag2Text, a vision language pre-training (VLP) framework, which introduces image tagging into vision-language models to guide the learning of visual-linguistic features. In contrast to prior works which utilize object tags either manually labeled or automatically detected with an off-the-shelf detector with limited performance, our approach explicitly learns an image tagger using tags parsed from image-paired text and thus provides a strong semantic guidance to vision-language models. In this way, Tag2Text can utilize large-scale annotation-free image tags in accordance with image-text pairs, and provides more diverse tag categories beyond objects. As a result, Tag2Text demonstrates the ability of a foundational image tagging model, with superior zero-shot performance even comparable to fully supervised models. Moreover, by leveraging the tagging guidance, Tag2Text effectively enhances the performance of vision-language models on both generation-based and alignment-based tasks. Across a wide range of downstream benchmarks, Tag2Text achieves state-of-the-art results with similar model sizes and data scales, demonstrating the efficacy of the proposed tagging guidance. Code, demo and pre-trained models are available at https://github.com/xinyu1205/recognize-anything.
研究の動機と目的
- 対象物を超える豊富で注釈なしの画像タグを注入することによるビジョンと言語の事前学習の改善を動機づける。
- 手動ラベリングや市販の検出器ではなく、対になるテキストからタグを派生させて、スケーラブルなタグ付けガイダンスを可能にする。
- 検出器フリーのアーキテクチャの下で、タグ付けガイダンスが生成ベースと整合ベースのVLタスクの双方を改善することを実証する。
- 大規模で多様なタグセット(3,429カテゴリ)がゼロショットタグ付けと下流のVLベンチマークを向上させることを示す。
提案手法
- テキスト意味解析器を用いて画像–テキストペアから画像タグを抽出し、3,429の一般的なタグカテゴリを生成する。
- 手動アノテーションなしで解釈済みタグを予測することを学習する画像タグ付けヘッドを導入する。
- 画像特徴と割り当てられたタグに条件付けてキャプションを生成する前処理タスクとして、画像タグ-テキスト生成を提案する。
- 粗 ITC と細粒 ITM 損失を持つ画像-テキスト整合性コンポーネントを追加し、タグに導かれたハードネガティブマイニングを用いる。
- タグ付け、生成(画像タグ-テキスト生成)、整合(ITC/ITM)をマルチタスク目的で訓練する。
- ユーザー提供タグがキャプション生成と検索を誘導するタグガイド付き推論を許可する。
実験結果
リサーチクエスチョン
- RQ1テキストから解析された注釈なしの画像タグは、ビジョンと言語の事前学習に強力な意味的ガイダンスを提供できるか。
- RQ2タグ付けを伴う検出器フリーのVL事前学習は、検出器ベースや検出器フリーのベースラインと比較して、生成ベースと整合ベースのタスクの双方を改善するか。
- RQ3ゼロショットタグ付け、キャプション品質、クロスモーダル検索へのタグ付けガイダンスの効果はどうか。
- RQ4VL学習に有益なタグの数と種類(物体、シーン、属性、動作)はどの程度か。
主な発見
- Tag2Textは、OpenImagesとCOCOでSOTAビジョンと言語モデルと比較して優れたゼロショット画像タグ付けを達成する。
- 画像タグ付けガイダンスは、検出器フリーのVLモデルにおいて生成ベースのタスク(キャプション生成)と整合ベースのタスク(画像-テキスト検索)を改善する。
- 400万および1400万の画像-テキストペアでの事前学習は、ベンチマーク全体で強力なタグ付け、キャプショニング、検索結果をもたらし、Tag2Text-Swinが特に良好な性能を示す。
- タグ付けヘッドと大規模で多様なタグセットは検出器ベースのアプローチよりも画像と言語の橋渡しを改善しつつ、エンドツーエンド訓練で効率的である。
- 大規模なテキスト由来タグで事前学習を行い、その後下流タスクでファインチューニングする2段階の事前学習とファインチューニングパラダイムは、多ラベル認識と下流VL性能を向上させる。
- タグ付けガイダンスはキャプショニングの制御性を提供し、ユーザー指定のタグが生成される記述を操ることを可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。