[論文レビュー] CLIP-Adapter: Better Vision-Language Models with Feature Adapters
CLIP-Adapterは、残差ブレンドを伴う軽量の特徴アダプタを挿入して視覚言語モデルをファインチューニングする方法で、 Few-shot タスクのプロンプト調整に対する単純で有効な代替手段を提供する。
Large-scale contrastive vision-language pre-training has shown significant progress in visual representation learning. Unlike traditional visual systems trained by a fixed set of discrete labels, a new paradigm was introduced in \cite{radford2021learning} to directly learn to align images with raw texts in an open-vocabulary setting. On downstream tasks, a carefully chosen text prompt is employed to make zero-shot predictions.~To avoid non-trivial prompt engineering, context optimization \cite{zhou2021coop} has been proposed to learn continuous vectors as task-specific prompts with few-shot training examples.~In this paper, we show that there is an alternative path to achieve better vision-language models other than prompt tuning.~While prompt tuning is for the textual inputs, we propose CLIP-Adapter to conduct fine-tuning with feature adapters on either visual or language branch. Specifically, CLIP-Adapter adopts an additional bottleneck layer to learn new features and performs residual-style feature blending with the original pre-trained features.~As a consequence, CLIP-Adapter is able to outperform context optimization while maintains a simple design. Experiments and extensive ablation studies on various visual classification tasks demonstrate the effectiveness of our approach. Code is released at t https://github.com/gaopengcuhk/CLIP-Adapter.
研究の動機と目的
- オープン語彙の CLIP 設定において、プロンプト調整を超えた視覚言語モデルの改善を動機づける。
- バックボーンを凍結しつつ CLIP をファインチューニングする軽量なボトルネック特徴アダプタを提案する。
- 新しい知識とゼロショット事前学習知識を結合する残差風ブレンディングを可能にする。
- アブレーションを通じて、11のデータセットとさまざまな few-shot レジームでの有効性を実証する。
提案手法
- CLIP の画像および/またはテキストブランチに、2つの小さなボトルネック線形アダプタを追加する。
- 元の CLIP バックボーンを凍結し、アダプタのみを少数ショットデータで訓練する。
- 残差比 α および β で制御される残差接続を用いて、適応後の特徴を元の特徴とブレンドする。
- 既存の W で分類器の重みを形成し、並列アダプタで残差混合を伴ってそれらを適応させる。
- データセット固有の調整のために、ハイパーネットワークを介して α および β を学習することをオプションとする。
- 3つのバリアントを探索する:画像専用アダプタ、テキスト専用アダプタ、両方のアダプタ;デフォルトは画像アダプタを使用。
実験結果
リサーチクエスチョン
- RQ1軽量な特徴アダプタを用いたファインチューニングは、Few-shot 視覚言語分類においてプロンプト調整法に匹敵するか、あるいはそれを上回るか?
- RQ2残差接続とボトルネック設計は、過剰適合を抑制し、多様なデータセットで一般化を改善するか?
- RQ3データセットの特性に応じて最適な構成(どのブランチを適応、ボトルネックサイズ、残差比)は何か?
- RQ4学習可能な残差比はデータセット全体で性能をさらに向上させるか?
- RQ5アダプターは、プロンプトベースの方法と比較して、学習された特徴流形にどのような影響を及ぼすか?
主な発見
- CLIP-Adapter は、ゼロショット CLIP、リニアプローブ CLIP、および CoOp を、11 のデータセットを跨るさまざまな few-shot 設定で上回った。
- 残差ブレンディングはボトルネックアダプタを用いると強力な一般化を生み出し、特に非常に低ショットの領域(1–2 ショット)で顕著。
- 画像ブランチ(視覚アダプタ)のファインチューニングは、テキストのみの適応より通常は高い利得をもたらし、両方のアダプタを組み合わせることが必ずしも優れているとは限らない。
- 最適なボトルネック次元は、おおよそ D/4 で、D は元の特徴次元。大きすぎるまたは小さすぎるボトルネックは性能を低下させる。
- 最適な残差比 α の傾向:細粒度データセットはより高い α(0.6)を好み、汎用データセットは低い α(約0.2)を好む;α=0 は Zero-shot CLIP を回復させ、α=1 は過学習。
- ハイパーネットワークを介して学習可能な α, β のバリアントは、手動調整なしで競争力のある結果を達成できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。