QUICK REVIEW

[論文レビュー] CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models

Yuan Yao, Ao Zhang|arXiv (Cornell University)|Sep 24, 2021

Multimodal Machine Learning Applications参考文献 45被引用数 86

ひとこと要約

CPT は画像領域に色を付けるマークを付与し、クエリを色で塗りつぶしたテンプレートとして書き換えるクロスモーダル・プロンプト・チューニングを導入し、事前学習済みのビジョン-言語モデルに対して新しいパラメータを追加することなく、強力な zero-shot および few-shot のビジュアル grounding を実現する。低データ領域でファインチューニングより大きな利得を得、完全に監視された設定でも競争力を維持する。

ABSTRACT

Pre-Trained Vision-Language Models (VL-PTMs) have shown promising capabilities in grounding natural language in image data, facilitating a broad variety of cross-modal tasks. However, we note that there exists a significant gap between the objective forms of model pre-training and fine-tuning, resulting in a need for large amounts of labeled data to stimulate the visual grounding capability of VL-PTMs for downstream tasks. To address the challenge, we present Cross-modal Prompt Tuning (CPT, alternatively, Colorful Prompt Tuning), a novel paradigm for tuning VL-PTMs, which reformulates visual grounding into a fill-in-the-blank problem with color-based co-referential markers in image and text, maximally mitigating the gap. In this way, CPT enables strong few-shot and even zero-shot visual grounding capabilities of VL-PTMs. Comprehensive experimental results show that the prompt-tuned VL-PTMs outperform their fine-tuned counterparts by a large margin (e.g., 17.3% absolute accuracy improvement, and 73.8% relative standard deviation reduction on average with one shot in RefCOCO evaluation). We make the data and code for this paper publicly available at https://github.com/thunlp/CPT.

研究の動機と目的

VL-PTMs の事前学習（MLM ベースの目的）とファインチューニング（タスク固有の分類）との間のギャップを埋める。
色ベースのクロスモーダル・プロンプトを用いて、ビジュアル grounding を空欄埋めタスクとして定式化する。
高品質なクロスモーダル色プロンプトを探索するための原理的な手法を開発する。
強力な zero-shot および few-shot のビジュアル grounding を実証し、完全監視学習設定で競争力のある性能を示す。

提案手法

二部構成の CPT フレームワーク：画像領域を一意の色で着色する視覚サブプロンプトと、クエリを色ベースのテンプレートに配置するテキストサブプロンプト。
ファインディングは、ターゲット領域に対応する色テキストを MLM ヘッドを介して回復することによって達成され、新しいパラメータを導入しない。
Cross-modal prompt search (CPS) は、視覚的外観と色テキストを共同で最適化してデコードスコアを最大化し、VL-PTM が最も強く結びつける色のペアを選択する。
ターゲット領域を含まないバッチには none-token を用いるなど、複数の提案を扱うための画像領域のバッチ処理。
マスクされた位置から関係トークンを再構成するテンプレートを用いた、視覚的関係検出への拡張。

実験結果

リサーチクエスチョン

RQ1クロスモーダル色プロンプトは、VL-PTMs が参照表現を最小限またはタスク特化のファインチューニングなしで grounding できるようにするか？
RQ2データセットやタスクを横断して、クロスモーダル grounding の性能を最大化するために、色の見え方と色テキストをどのように選択すべきか？
RQ3標準のファインチューニングと比較して、CPT は zero-shot および few-shot 設定でデータ効率と安定性を改善するか？
RQ4CPT は最小限のアーキテクチャ変更で、視覚的関係検出のような関連するクロスモーダルタスクに拡張できるか？

主な発見

CPT は、強力なファインチューニングのベースラインと比較して、zero-shot および few-shot grounding の精度を大幅に向上させる（例：RefCOCO の one shot で）。
色情報付きセグメンテーションマスクを視覚プロンプトとして用いると、色付きブロックよりも大きな利得を得られる。物体の輪郭との整合性が高いため。
CPT はファインチューニングより相対的な標準偏差をはるかに低く、低データ領域でのトレーニング安定性を示す。
完全に監視された設定では、CPT 接続プロンプトは強力なファインチューニング済み VL-PTMs に匹敵する性能を示し、CPT-Seg がしばしば先行する。
Cross-modal prompt search (CPS) は、単純な頻度ベースの選択より色の選択を改善し、平均精度と安定性の両方を向上させる。
CPT は視覚的関係検出にも効果的に拡張され、競争力のある zero-/few-shot の性能とファインチューニングに対する大きな利得を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。