Skip to main content
QUICK REVIEW

[論文レビュー] CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models

Yuan Yao, Ao Zhang|arXiv (Cornell University)|Sep 24, 2021
Multimodal Machine Learning Applications参考文献 45被引用数 86
ひとこと要約

CPT は画像領域に色を付けるマークを付与し、クエリを色で塗りつぶしたテンプレートとして書き換えるクロスモーダル・プロンプト・チューニングを導入し、事前学習済みのビジョン-言語モデルに対して新しいパラメータを追加することなく、強力な zero-shot および few-shot のビジュアル grounding を実現する。低データ領域でファインチューニングより大きな利得を得、完全に監視された設定でも競争力を維持する。

ABSTRACT

Pre-Trained Vision-Language Models (VL-PTMs) have shown promising capabilities in grounding natural language in image data, facilitating a broad variety of cross-modal tasks. However, we note that there exists a significant gap between the objective forms of model pre-training and fine-tuning, resulting in a need for large amounts of labeled data to stimulate the visual grounding capability of VL-PTMs for downstream tasks. To address the challenge, we present Cross-modal Prompt Tuning (CPT, alternatively, Colorful Prompt Tuning), a novel paradigm for tuning VL-PTMs, which reformulates visual grounding into a fill-in-the-blank problem with color-based co-referential markers in image and text, maximally mitigating the gap. In this way, CPT enables strong few-shot and even zero-shot visual grounding capabilities of VL-PTMs. Comprehensive experimental results show that the prompt-tuned VL-PTMs outperform their fine-tuned counterparts by a large margin (e.g., 17.3% absolute accuracy improvement, and 73.8% relative standard deviation reduction on average with one shot in RefCOCO evaluation). We make the data and code for this paper publicly available at https://github.com/thunlp/CPT.

研究の動機と目的

  • VL-PTMs の事前学習(MLM ベースの目的)とファインチューニング(タスク固有の分類)との間のギャップを埋める。
  • 色ベースのクロスモーダル・プロンプトを用いて、ビジュアル grounding を空欄埋めタスクとして定式化する。
  • 高品質なクロスモーダル色プロンプトを探索するための原理的な手法を開発する。
  • 強力な zero-shot および few-shot のビジュアル grounding を実証し、完全監視学習設定で競争力のある性能を示す。

提案手法

  • 二部構成の CPT フレームワーク:画像領域を一意の色で着色する視覚サブプロンプトと、クエリを色ベースのテンプレートに配置するテキストサブプロンプト。
  • ファインディングは、ターゲット領域に対応する色テキストを MLM ヘッドを介して回復することによって達成され、新しいパラメータを導入しない。
  • Cross-modal prompt search (CPS) は、視覚的外観と色テキストを共同で最適化してデコードスコアを最大化し、VL-PTM が最も強く結びつける色のペアを選択する。
  • ターゲット領域を含まないバッチには none-token を用いるなど、複数の提案を扱うための画像領域のバッチ処理。
  • マスクされた位置から関係トークンを再構成するテンプレートを用いた、視覚的関係検出への拡張。

実験結果

リサーチクエスチョン

  • RQ1クロスモーダル色プロンプトは、VL-PTMs が参照表現を最小限またはタスク特化のファインチューニングなしで grounding できるようにするか?
  • RQ2データセットやタスクを横断して、クロスモーダル grounding の性能を最大化するために、色の見え方と色テキストをどのように選択すべきか?
  • RQ3標準のファインチューニングと比較して、CPT は zero-shot および few-shot 設定でデータ効率と安定性を改善するか?
  • RQ4CPT は最小限のアーキテクチャ変更で、視覚的関係検出のような関連するクロスモーダルタスクに拡張できるか?

主な発見

  • CPT は、強力なファインチューニングのベースラインと比較して、zero-shot および few-shot grounding の精度を大幅に向上させる(例:RefCOCO の one shot で)。
  • 色情報付きセグメンテーションマスクを視覚プロンプトとして用いると、色付きブロックよりも大きな利得を得られる。物体の輪郭との整合性が高いため。
  • CPT はファインチューニングより相対的な標準偏差をはるかに低く、低データ領域でのトレーニング安定性を示す。
  • 完全に監視された設定では、CPT 接続プロンプトは強力なファインチューニング済み VL-PTMs に匹敵する性能を示し、CPT-Seg がしばしば先行する。
  • Cross-modal prompt search (CPS) は、単純な頻度ベースの選択より色の選択を改善し、平均精度と安定性の両方を向上させる。
  • CPT は視覚的関係検出にも効果的に拡張され、競争力のある zero-/few-shot の性能とファインチューニングに対する大きな利得を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。