QUICK REVIEW

[論文レビュー] Exploring Visual Prompts for Adapting Large-Scale Models

Hyojin Bahng, Ali Jahanian|arXiv (Cornell University)|Mar 31, 2022

CCD and CMOS Imaging Sensors被引用数 106

ひとこと要約

本論文は、固定された視覚モデルと視覚言語モデルを適応させるための単一の視覚プロンプト（ピクセル空間の摂動）を学習することを研究し、CLIP が特に適応性が高く分布シフトに対して頑健であること、線形プローブと比較して性能が競争力があることを示しています。

ABSTRACT

We investigate the efficacy of visual prompting to adapt large-scale models in vision. Following the recent approach from prompt tuning and adversarial reprogramming, we learn a single image perturbation such that a frozen model prompted with this perturbation performs a new task. Through comprehensive experiments, we demonstrate that visual prompting is particularly effective for CLIP and robust to distribution shift, achieving performance competitive with standard linear probes. We further analyze properties of the downstream dataset, prompt design, and output transformation in regard to adaptation performance. The surprising effectiveness of visual prompting provides a new perspective on adapting pre-trained models in vision. Code is available at http://hjbahng.github.io/visual_prompting .

研究の動機と目的

ピクセル空間の視覚プロンプトが凍結された事前学習済み視覚モデルを新しいタスクに適応させることができるかを調査する。
複数のモデルと15のデータセットに渡るプロンプトベースの適応を評価する。
データセットの特性、プロンプト設計、および出力マッピングが性能に与える影響を分析する。
タスクとシフトを横断して、視覚プロンプトをファインチューニング、線形プローブ、テキストプロンプトと比較する。

提案手法

凍結されたモデル F を用いて、タスク専用の単一の視覚プロンプト v_phi をバックプロパゲーションで学習する。
入力変換を用いて x + v_phi のプロンプト画像を作成し、交差エントロピー損失で phi を最適化する。
出力マッピングの2つの方式を適用する：視覚モデルにはハードコードされたラベルマッピング、CLIP には離散的なテキストプロンプト。
実験全体でデフォルトとしてプロンプトサイズ p = 30 のパディングテンプレートを採用する。
CLIP と3つの視覚モデル（Instagram事前学習済み ResNeXt、BiT-M、RN50）で、12データセットと分布シフト（WILDS）を横断して評価する。
ファインチューニング、線形プローブ、テキストプロンプトをベースラインとして比較する。

実験結果

リサーチクエスチョン

RQ1ピクセル空間で固定され学習可能な視覚プロンプトは、凍結されたモデルに新しい下流タスクを実行させることができるか？
RQ2多様なデータセットと事前学習モデルに対して、視覚プロンプトは線形プローブやファインチューニングとどのように比較されるか？
RQ3データセットの特性とプロンプト設計が適応の有効性にどのように影響するか？
RQ4CLIP は標準的な視覚モデルと比較して視覚プロンプトに特に適しているか？
RQ5視覚プロンプトは分布シフトに対してどれだけ頑健か？

主な発見

モデル	手法	CIFAR100	CIFAR10	Flowers	Food	EuroSAT	SUN	UCF	SVHN	Pets	DTD	RESISC	CLEVR	Average
CLIP	TP	63.1	89.0	61.9	79.8	40.0	60.0	59.9	5.1	85.9	43.0	42.4	20.2	54.2
CLIP	VP + TP	75.3	94.2	70.3	78.9	96.4	60.6	66.1	88.4	85.0	57.1	84.5	81.4	78.2
CLIP	LP	80.0	95.0	96.9	84.6	95.3	75.0	83.3	65.4	89.2	74.6	92.3	66.0	83.1
CLIP	FT	82.1	95.8	97.4	80.5	97.9	64.0	80.9	95.7	88.5	72.3	93.3	94.4	86.9

CLIP を用いた視覚プロンプトは線形プローブと競合する性能を達成し、平均で約24%上回る。
12データセットにわたり、視覚プロンプト付きの CLIP（VP+TP）はほとんどのタスクで CLIP テキストプロンプト（TP）を上回る（例：EuroSAT、SVHN、CLEVR）。
WILDS ベンチマークで、視覚プロンプトは線形プローブおよびファインチューニングに対する平均的なOODギャップを低減する（平均4.5%、3.5%）。
プロンプト設計は重要で、パディング with p=30 が一般に最良の結果を生む；単一ピクセルのプロンプトでも EuroSAT で CLIP を約3%改善できる。
CLIP を持たない視覚モデルではプロンプティングは線形プローブに及ばず、CLIP の視覚プロンプトへの特有の適合性を示す。
視覚モデルのハードコードされた出力マッピングはラベル意味論に敏感になり得る；テキストプロンプトによる CLIP の出力は意味的一致を活用できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。