Skip to main content
QUICK REVIEW

[論文レビュー] Hold-One-Shot-Out (HOSO) for Validation-Free Few-Shot CLIP Adapters

Chris Vorster, Mayug Maniparambil|arXiv (Cornell University)|Mar 4, 2026
Domain Adaptation and Few-Shot Learning被引用数 0
ひとこと要約

この論文は HOSO-Adapter を提案します。検証なしの方法で 1-shot のホールドアウトキャッシュを用い、CLIP アダプターのブレンディング比を学習させ、11 データセットに跨るファ few-shot 転移を改善し、より多くのshot設定でテストセットのオラクル性能にほぼ匹敵します。

ABSTRACT

In many CLIP adaptation methods, a blending ratio hyperparameter controls the trade-off between general pretrained CLIP knowledge and the limited, dataset-specific supervision from the few-shot cases. Most few-shot CLIP adaptation techniques report results by ablation of the blending ratio on the test set or require additional validation sets to select the blending ratio per dataset, and thus are not strictly few-shot. We present a simple, validation-free method for learning the blending ratio in CLIP adaptation. Hold-One-Shot-Out (HOSO) presents a novel approach for CLIP-Adapter-style methods to compete in the newly established validation-free setting. CLIP-Adapter with HOSO (HOSO-Adapter) learns the blending ratio using a one-shot, hold-out set, while the adapter trains on the remaining few-shot support examples. Under the validation-free few-shot protocol, HOSO-Adapter outperforms the CLIP-Adapter baseline by more than 4 percentage points on average across 11 standard few-shot datasets. Interestingly, in the 8- and 16-shot settings, HOSO-Adapter outperforms CLIP-Adapter even with the optimal blending ratio selected on the test set. Ablation studies validate the use of a one-shot hold-out mechanism, decoupled training, and improvements over the naively learnt blending ratio baseline. Code is released here: https://github.com/chris-vorster/HOSO-Adapter

研究の動機と目的

  • CLIP アダプターにおけるデータセット依存のブレンディング比を厳密な few-shot・検証なし設定で選択するという課題を動機づけ、対処する。
  • 検証なしのブレンディング比学習アプローチ(HOSO)を提案し、1-shot のホールドアウトキャッシュを活用。
  • 分離最適化とホールドアウトキャッシュが、few-shot CLIP 適応における一般化を改善し過剰適合を抑制することを示す。
  • 多様なデータセットとバックボーンに対して、検証なしブレンディング比学習の最先端性能を示す。

提案手法

  • CLIP のビジョン特徴とアダプター特徴を結合する学習可能なブレンディング比 alpha を導入する: v_hat = (1-alpha) v + alpha v_adapt.
  • alpha を学習可能なロジットとシグモイドスケーリングでパラメータ化し、alpha を [0.1, 0.9] に維持する。
  • ホールドワンショットアウトキャッシュを作成:各クラスにつき1枚の画像を検証用として選択し、訓練から除外し、クラスごとのテキストプロトタイプを事前計算する。
  • 拡張した K-1 ショット集合でアダプター psi を訓練し、分離最適化によって hold-out キャッシュ上の alpha_logit を最適化する。
  • テキスト特徴 t_c をクラスプロトタイプ用に事前計算し、alpha 最適化のゼロショット風目的を可能にする。
  • 2つのオプティマイザを用いて評価する:S' 上のアダプターと C 上の alpha_logit、分離学習と過剰適合の低減を確保。

実験結果

リサーチクエスチョン

  • RQ1検証なしのブレンディング比を 1-shot のホールドアウトキャッシュを用いて CLIP アダプターに対して効果的に学習できるか。
  • RQ2アダプターとブレンディング比の分離最適化は few-shot CLIP 適応における一般化を改善するか。
  • RQ3検証なしのブレンディング比法は、多様なデータセットで oracle(テストセット調整済み)性能にどれだけ近づけるか。
  • RQ4ホールドアウトキャッシュのサイズがブレンディング比推定とアダプター性能に与える影響は何か。
  • RQ5HOSO アプローチは ResNet-50 と ViT のバックボーン間でバックボーン非依存か。

主な発見

MethodCaltech101DTDEuroSATFGVCAircraftFood101ImageNetFlowers102OxfordPetsStanfordCarsSUN397UCF101Average
CLIP-Adapter (best α) †95.9071.7085.8045.8089.3071.5097.4092.7082.1075.6084.0081.07
CLIP-Adapter (α=0.2) ∗94.9059.7070.5034.1089.1071.5093.1092.6073.9074.2080.4075.82
HOSO-Adapter (ours)95.4070.6785.3043.2388.9770.9397.2392.2781.5074.6783.4380.33
  • HOSO-Adapter は検証なし設定で CLIP-Adapter のベースラインを平均で最大 11 データセット上、4 ポイント前後上回る(ResNet-50 および ViT-B/16 バックボーン)。
  • 16-shot ViT-B/16 実験では HOSO-Adapter が平均 80.33% を達成し、検証なし CLIP-Adapter を 4.5 ポイント超上回り、より高い shot 設定でテストセットのオラクルにほぼ匹敵。
  • アブレーションにより、分離最適化と 1-shot キャッシュの使用が鍵であることが示される。1-shot キャッシュを削除するか、共同訓練を行うと性能が劣化。
  • 16-shot ViT-B/16 の結果は、細分類データセットで顕著な利得を示す(例:EuroSAT +14.8 ポイント、DTD +11.0、FGVCAircraft +9.1)ほか、オラクルベースラインと全体的に競合。
  • HOSO-Adapter は、alpha を保守的に保ち、ホールドアウトキャッシュのフィードバックに基づいてアダプターの影響を動的に制御することで過剰適合を一貫して抑制する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。