Skip to main content
QUICK REVIEW

[論文レビュー] Learning to Compose Soft Prompts for Compositional Zero-Shot Learning

Nihal V. Nayak, Peilin Yu|arXiv (Cornell University)|Apr 7, 2022
Domain Adaptation and Few-Shot Learning被引用数 41
ひとこと要約

We introduce compositional soft prompting (CSP), which learns attribute and object vocabulary tokens to improve CLIP-based compositional zero-shot learning, achieving substantial gains over CLIP and CoOp on standard benchmarks.

ABSTRACT

We introduce compositional soft prompting (CSP), a parameter-efficient learning technique to improve the zero-shot compositionality of large-scale pretrained vision-language models (VLMs) like CLIP. We develop CSP for compositional zero-shot learning, the task of predicting unseen attribute-object compositions (e.g., old cat and young tiger). VLMs have a flexible text encoder that can represent arbitrary classes as natural language prompts but they often underperform task-specific architectures on the compositional zero-shot benchmark datasets. CSP treats the attributes and objects that define classes as learnable tokens of vocabulary. During training, the vocabulary is tuned to recognize classes that compose tokens in multiple ways (e.g., old cat and white cat). At test time, we recompose the learned attribute-object vocabulary in new combinations to recognize novel classes. We show that CSP outperforms the CLIP on benchmark datasets by an average of 10.9 percentage points on AUC. CSP also outperforms CoOp, a soft prompting method that fine-tunes the prefix context tokens, by an average of 5.8 percentage points on AUC. We perform additional experiments to show that CSP improves generalization to higher-order attribute-attribute-object compositions (e.g., old white cat) and combinations of pretrained attributes and fine-tuned objects. The code is available at https://github.com/BatsResearch/csp.

研究の動機と目的

  • 属性-オブジェクト概念を適応可能な語彙トークンとして組み合わせることを学習することにより、視覚言語モデルのゼロショット組成性を向上させる。
  • テスト時に未知のクラス組み合わせに対して、学習済みの属性-オブジェクトプロンプトを再構成できるようにする。
  • モデル全体を微調整するのではなく、少数の語彙トークンを調整することでパラメータ効率を維持する。

提案手法

  • 属性とオブジェクトを VLM の語彙における学習可能トークンとして扱う。
  • トークンを事前学習済みの CLIP 埋め込みから初期化し、複数の属性-オブジェクトプロンプトで訓練する。
  • "A photo of [attribute] [object]" の形のプロンプトを、固定プレフィックス文脈と学習可能トークンの両方を用いて構築する。
  • VLM 埋め込み空間でコサイン類似度を用いて画像とテキストの適合度を計算し、クロスエントロピーロスで最適化する。
  • 推論時に、学習した属性/オブジェクトの語彙を再構成して新規構成を認識する。
  • 小さなパラメータフットプリントを維持する:訓練されるのはのみ (|A|+|O|) × d パラメータ。

実験結果

リサーチクエスチョン

  • RQ1学習可能な属性とオブジェクトトークンを学ぶことは、CLIP ベースのモデルのゼロショット組成性を改善できますか?
  • RQ2CSP は高次の組成や事前学習済み/ファインチューニング済み語彙の混在にどの程度一般化しますか?
  • RQ3標準データセットで、CSP と CLIP およびソフトプロンプトのベースラインとの比較利得はどの程度ですか?
  • RQ4属性-オブジェクト組成での訓練は、属性-属性-オブジェクトや未知の属性シナリオへ一般化しますか?

主な発見

DatasetSUHAUC
MIT-States46.649.936.319.4
UT-Zappos64.266.246.633.0
C-GQA28.826.820.56.2
  • CSP は閉世界設定で3つのベンチマークにおいて CLIP より平均 AUC 精度を 10.9 ポイント向上させます。
  • 同じ指標で CoOp より平均 AUC 精度を 5.8 ポイント向上させます。
  • オープンワールド設定では、CSP は顕著な向上を達成します(例:MIT-States、UT-Zappos、C-GQA)し、いくつかのデータセットでタスク特化型アーキテクチャを上回ることが多いです。
  • CSP は高次の組成(属性-属性-オブジェクト)へ一般化し、CLIP と比べて未知データでの精度が向上します。
  • 属性-オブジェクト組成での訓練は、属性分類、属性-属性-オブジェクト、および混合語彙シナリオにおける CLIP の性能を向上させます。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。