Skip to main content
QUICK REVIEW

[論文レビュー] Conditional Prompt Learning for Vision-Language Models

Kaiyang Zhou, Jingkang Yang|arXiv (Cornell University)|Mar 10, 2022
Multimodal Machine Learning Applications被引用数 73
ひとこと要約

本論文は CoOp を拡張し、入力条件付き prompting アプローチ(CoCoOp)を提案。これにより、見せないクラスへの一般化、データセット横断転移、および CLIP 系ビジョン-言語モデルのドメイン一般化を改善する入力条件付きプロンプトベクトルを生成します。

ABSTRACT

With the rise of powerful pre-trained vision-language models like CLIP, it becomes essential to investigate ways to adapt these models to downstream datasets. A recently proposed method named Context Optimization (CoOp) introduces the concept of prompt learning -- a recent trend in NLP -- to the vision domain for adapting pre-trained vision-language models. Specifically, CoOp turns context words in a prompt into a set of learnable vectors and, with only a few labeled images for learning, can achieve huge improvements over intensively-tuned manual prompts. In our study we identify a critical problem of CoOp: the learned context is not generalizable to wider unseen classes within the same dataset, suggesting that CoOp overfits base classes observed during training. To address the problem, we propose Conditional Context Optimization (CoCoOp), which extends CoOp by further learning a lightweight neural network to generate for each image an input-conditional token (vector). Compared to CoOp's static prompts, our dynamic prompts adapt to each instance and are thus less sensitive to class shift. Extensive experiments show that CoCoOp generalizes much better than CoOp to unseen classes, even showing promising transferability beyond a single dataset; and yields stronger domain generalization performance as well. Code is available at https://github.com/KaiyangZhou/CoOp.

研究の動機と目的

  • 静的プロンプト(CoOp)がベースクラスに過適合する問題を解決する。
  • 一般化を改善する軽量な入力条件付き prompting メカニズムを開発する。
  • 多様なデータセットを跨ぐ基底→新規一般化、クロスデータセット転移、ドメイン一般化を実証する。

提案手法

  • プロンプトの共有コンテキストベクトルを学習可能にすることで CLIP/CoOp を拡張する。
  • 入力条件付きトークンを生成する Meta-Net(軽量ニューラルネットワーク)を導入する。
  • 入力条件付きトークンを共有コンテキストベクトルと組み合わせて per-image プロンプトを形成する。
  • vision-language バックボーンを固定したまま、プロンプト成分(コンテキストベクトルと Meta-Net)だけを訓練する。
  • 基底から新規 generalization、クロスデータセット転移、およびドメイン一般化の設定で評価する。

実験結果

リサーチクエスチョン

  • RQ1インスタンス条件付きプロンプトは、静的 CoOp プロンプトと比較してベースクラスへの過適合を低減できるか?
  • RQ2入力 conditioned プロンプトはデータセット内の未知クラスへの一般化を改善するか?
  • RQ3インスタンス条件付きプロンプトはデータセットを跨いだ転移性が高く、ドメインシフトに対してロバストか?

主な発見

ModelBaseNewH
CLIP69.3474.2271.70
CoOp82.6963.2271.66
CoCoOp80.4771.6975.83
  • CoCoOp は未知クラスの精度を 63.22%(CoOp)から 71.69% に平均で向上させ、11 データセットで達成。
  • 基底→新規一般化において、CoCoOp は CoOp および CLIP より高い調和平均 (H) を示す(例:Table 1 では CoCoOp の H=75.83、CoOp は 71.66、CLIP は 71.70)。
  • CoCoOp は複数のソース-ターゲットペアで、CoOp より良いクロスデータセット転移を達成(Table 2 に示す平均ゲインなど)。
  • CoCoOp はドメイン一般化ベンチマークで CLIP および CoOp を一貫して上回り、ドメインシフトに対するロバスト性を向上(Table 3)。
  • 未知/クラス一般化の利得は通常、ベースクラスの低下と小さくともトレードオフを伴い、全体的なパフォーマンスに正の影響を与える(Figure 3 と Table 1)。
  • アブレーション研究は、より長いコンテキストと適切な初期化が未知クラスをさらに有利にし、Meta-Net はパラメータ数を増やす以上の寄与をすることを示す(Table 5)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。