Skip to main content
QUICK REVIEW

[論文レビュー] Unified Vision and Language Prompt Learning

Yuhang Zang, Wei Li|arXiv (Cornell University)|Oct 13, 2022
Domain Adaptation and Few-Shot Learning被引用数 55
ひとこと要約

テキストと視覚プロンプトを共同で調整する統一プロンプトチューニング(UPT)を提案し、CLIP様の設定における少数ショットおよびドメイン一般化タスクで単一モーダルのプロンプト調整を上回る。

ABSTRACT

Prompt tuning, a parameter- and data-efficient transfer learning paradigm that tunes only a small number of parameters in a model's input space, has become a trend in the vision community since the emergence of large vision-language models like CLIP. We present a systematic study on two representative prompt tuning methods, namely text prompt tuning and visual prompt tuning. A major finding is that none of the unimodal prompt tuning methods performs consistently well: text prompt tuning fails on data with high intra-class visual variances while visual prompt tuning cannot handle low inter-class variances. To combine the best from both worlds, we propose a simple approach called Unified Prompt Tuning (UPT), which essentially learns a tiny neural network to jointly optimize prompts across different modalities. Extensive experiments on over 11 vision datasets show that UPT achieves a better trade-off than the unimodal counterparts on few-shot learning benchmarks, as well as on domain generalization benchmarks. Code and models will be released to facilitate future research.

研究の動機と目的

  • CLIPのようなVLモデルにおける既存の単一モーダル・プロンプト調整(テキストまたは視覚)の限界を評価する。
  • テキストと視覚モダリティにわたってプロンプトを共同最適化する多模態プロンプト学習法を開発する。
  • 統一プロンプトが多様なデータセットにおいて少数ショットおよびドメイン一般化性能を向上させることを示す。

提案手法

  • クラス内視覚分散とクラス間テキスト分散指標を用いて、テキスト・プロンプト調整(CoOp)と視覚プロンプト調整(VPT)の限界を分析する。
  • 統一プロンプトチューニング(UPT)を導入する:小さな多模態プロンプトUを学習し、軽量なTransformer層によって変換され、テキストエンコーダと画像エンコーダ向けのモダリティ特有のプロンプトを生成する。
  • 画像エンコーダとテキストエンコーダを固定し、UとTransformer θのみを最適化する。
  • 変換されたプロンプトをテキストと画像エンコーダの複数の層に共同学習的に挿入する。
  • 任意で層ごとのプロンプトU^iを提供し、変換されたプロンプトをテキスト部と視覚部に分割して挿入する。
  • Uの自己注意ベースの変換が、クロスメディア間の相互作用と整合を向上させることを示す。

実験結果

リサーチクエスチョン

  • RQ1単一モーダルのプロンプト調整(テキストまたは視覚)は、さまざまなデータセットでVLモデルの性能を一貫して向上させるだろうか。
  • RQ2統一された多模態プロンプトは、テキスト分類器と視覚特徴空間のギャップを、単一モーダルのプロンプトよりも良く埋めることができるか。
  • RQ3統一プロンプト学習は、CoOpおよびVPTと比較して少数ショット学習およびドメイン一般化でどのように性能を発揮するか。
  • RQ4共有プロンプト、MLP対 Transformerなどの設計選択は、マルチモーダルプロンプトの有効性にどのように影響するか。

主な発見

  • UPTは、少数ショット設定において11データセット全体で、単一モーダルプロンプト調整(CoOpおよびVPT)を概して上回る。
  • UPTのインデータ内少数ショット精度向上は、CoOpに対してショット数に応じて約0.48〜3.19ポイントの範囲(16-shotで顕著な向上)となる。
  • UPTはVPT-deepよりもショット設定全体で約0.89〜2.70ポイント改善。
  • ドメイン一般化では、UPTはCoCoOpと競合する結果を達成し、複数のターゲットデータセットでしばしば最高の結果を示し、堅牢なOOD性能を示す。
  • アブレーション研究は、統一プロンプトの自己注意ベース変換が、単純な共同訓練や共有プロンプトより有益であること、MLPベースのプロンプトは競合的だが一般的にはTransformerアプローチに劣ることを示す。
  • 定性的なアテンション可視化は、UPTがプロンプトと画像トークン間の自己注意をより強く誘導し、クロスモーダル相互作用が改善されることを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。