[論文レビュー] CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models
CPT は画像領域に色を付けるマークを付与し、クエリを色で塗りつぶしたテンプレートとして書き換えるクロスモーダル・プロンプト・チューニングを導入し、事前学習済みのビジョン-言語モデルに対して新しいパラメータを追加することなく、強力な zero-shot および few-shot のビジュアル grounding を実現する。低データ領域でファインチューニングより大きな利得を得、完全に監視された設定でも競争力を維持する。
Pre-Trained Vision-Language Models (VL-PTMs) have shown promising capabilities in grounding natural language in image data, facilitating a broad variety of cross-modal tasks. However, we note that there exists a significant gap between the objective forms of model pre-training and fine-tuning, resulting in a need for large amounts of labeled data to stimulate the visual grounding capability of VL-PTMs for downstream tasks. To address the challenge, we present Cross-modal Prompt Tuning (CPT, alternatively, Colorful Prompt Tuning), a novel paradigm for tuning VL-PTMs, which reformulates visual grounding into a fill-in-the-blank problem with color-based co-referential markers in image and text, maximally mitigating the gap. In this way, CPT enables strong few-shot and even zero-shot visual grounding capabilities of VL-PTMs. Comprehensive experimental results show that the prompt-tuned VL-PTMs outperform their fine-tuned counterparts by a large margin (e.g., 17.3% absolute accuracy improvement, and 73.8% relative standard deviation reduction on average with one shot in RefCOCO evaluation). We make the data and code for this paper publicly available at https://github.com/thunlp/CPT.
研究の動機と目的
- VL-PTMs の事前学習(MLM ベースの目的)とファインチューニング(タスク固有の分類)との間のギャップを埋める。
- 色ベースのクロスモーダル・プロンプトを用いて、ビジュアル grounding を空欄埋めタスクとして定式化する。
- 高品質なクロスモーダル色プロンプトを探索するための原理的な手法を開発する。
- 強力な zero-shot および few-shot のビジュアル grounding を実証し、完全監視学習設定で競争力のある性能を示す。
提案手法
- 二部構成の CPT フレームワーク:画像領域を一意の色で着色する視覚サブプロンプトと、クエリを色ベースのテンプレートに配置するテキストサブプロンプト。
- ファインディングは、ターゲット領域に対応する色テキストを MLM ヘッドを介して回復することによって達成され、新しいパラメータを導入しない。
- Cross-modal prompt search (CPS) は、視覚的外観と色テキストを共同で最適化してデコードスコアを最大化し、VL-PTM が最も強く結びつける色のペアを選択する。
- ターゲット領域を含まないバッチには none-token を用いるなど、複数の提案を扱うための画像領域のバッチ処理。
- マスクされた位置から関係トークンを再構成するテンプレートを用いた、視覚的関係検出への拡張。
実験結果
リサーチクエスチョン
- RQ1クロスモーダル色プロンプトは、VL-PTMs が参照表現を最小限またはタスク特化のファインチューニングなしで grounding できるようにするか?
- RQ2データセットやタスクを横断して、クロスモーダル grounding の性能を最大化するために、色の見え方と色テキストをどのように選択すべきか?
- RQ3標準のファインチューニングと比較して、CPT は zero-shot および few-shot 設定でデータ効率と安定性を改善するか?
- RQ4CPT は最小限のアーキテクチャ変更で、視覚的関係検出のような関連するクロスモーダルタスクに拡張できるか?
主な発見
- CPT は、強力なファインチューニングのベースラインと比較して、zero-shot および few-shot grounding の精度を大幅に向上させる(例:RefCOCO の one shot で)。
- 色情報付きセグメンテーションマスクを視覚プロンプトとして用いると、色付きブロックよりも大きな利得を得られる。物体の輪郭との整合性が高いため。
- CPT はファインチューニングより相対的な標準偏差をはるかに低く、低データ領域でのトレーニング安定性を示す。
- 完全に監視された設定では、CPT 接続プロンプトは強力なファインチューニング済み VL-PTMs に匹敵する性能を示し、CPT-Seg がしばしば先行する。
- Cross-modal prompt search (CPS) は、単純な頻度ベースの選択より色の選択を改善し、平均精度と安定性の両方を向上させる。
- CPT は視覚的関係検出にも効果的に拡張され、競争力のある zero-/few-shot の性能とファインチューニングに対する大きな利得を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。