QUICK REVIEW

[论文解读] Hold-One-Shot-Out (HOSO) for Validation-Free Few-Shot CLIP Adapters

Chris Vorster, Mayug Maniparambil|arXiv (Cornell University)|Mar 4, 2026

Domain Adaptation and Few-Shot Learning被引用 0

一句话总结

本文提出 HOSO-Adapter，一种无需验证的方法，利用 1-shot 保留缓存学习 CLIP 适配器的混合比，从而在 11 个数据集上改进少-shot 迁移，并在较高 shot 设置下几乎达到测试集 oracle 的性能。

ABSTRACT

In many CLIP adaptation methods, a blending ratio hyperparameter controls the trade-off between general pretrained CLIP knowledge and the limited, dataset-specific supervision from the few-shot cases. Most few-shot CLIP adaptation techniques report results by ablation of the blending ratio on the test set or require additional validation sets to select the blending ratio per dataset, and thus are not strictly few-shot. We present a simple, validation-free method for learning the blending ratio in CLIP adaptation. Hold-One-Shot-Out (HOSO) presents a novel approach for CLIP-Adapter-style methods to compete in the newly established validation-free setting. CLIP-Adapter with HOSO (HOSO-Adapter) learns the blending ratio using a one-shot, hold-out set, while the adapter trains on the remaining few-shot support examples. Under the validation-free few-shot protocol, HOSO-Adapter outperforms the CLIP-Adapter baseline by more than 4 percentage points on average across 11 standard few-shot datasets. Interestingly, in the 8- and 16-shot settings, HOSO-Adapter outperforms CLIP-Adapter even with the optimal blending ratio selected on the test set. Ablation studies validate the use of a one-shot hold-out mechanism, decoupled training, and improvements over the naively learnt blending ratio baseline. Code is released here: https://github.com/chris-vorster/HOSO-Adapter

研究动机与目标

在严格的少-shot、无验证设置下，动机与解决在 CLIP 适配器中为数据集特定混合比选择带来挑战。
提出一种无需验证的混合比学习方法（HOSO），使用 1-shot 保留缓存。
证明解耦优化和保留缓存能在少-shot CLIP 适配中提升泛化并减少过拟合。
展示在多样数据集和骨干网络下，验证无关混合比学习的最新性能。

提出的方法

引入一个可学习的混合比 alpha，将 CLIP 视觉特征与适配器特征进行融合：v_hat = (1-alpha) v + alpha v_adapt.
通过一个带有 sigmoid 缩放的可学习 logit 对 alpha 进行参数化，以将 alpha 保持在 [0.1, 0.9] 区间内。
创建一个保留一个样本的缓存：对每个类别选取一个图像用于验证，将其从训练中移除，并预计算类别文本原型。
在仅包含 K-1-shot 的缩减训练集上训练适配器 psi，同时在保留缓存上通过解耦优化优化 alpha_logit。
预先计算类别原型的文本特征 t_c，以实现对 alpha 优化的类零-shot-式目标。
使用两种优化器进行评估：一个用于 S' 上的适配器，一个用于 C 上的 alpha_logit，确保解耦学习并减少过拟合。

实验结果

研究问题

RQ1能否对 CLIP 适配器使用 1-shot 保留缓存有效学习出一个验证无关的混合比？
RQ2适配器与混合比的解耦优化是否提升少-shot CLIP 适配中的泛化？
RQ3在多样数据集上，验证无关的混合比方法能达到多接近 oracle（测试集调优）性能的程度？
RQ4保留缓存大小对混合比估计和适配器性能的影响如何？
RQ5HOSO 方法是否对 ResNet-50 与 ViT 两种骨干具备端到端的骨干无关性？

主要发现

Method	Caltech101	DTD	EuroSAT	FGVCAircraft	Food101	ImageNet	Flowers102	OxfordPets	StanfordCars	SUN397	UCF101	平均值
CLIP-Adapter (best α) †	95.90	71.70	85.80	45.80	89.30	71.50	97.40	92.70	82.10	75.60	84.00	81.07
CLIP-Adapter (α=0.2) ∗	94.90	59.70	70.50	34.10	89.10	71.50	93.10	92.60	73.90	74.20	80.40	75.82
HOSO-Adapter (ours)	95.40	70.67	85.30	43.23	88.97	70.93	97.23	92.27	81.50	74.67	83.43	80.33

HOSO-Adapter 在验证无关设置中，相比 CLIP-Adapter 基线，在 11 个数据集上的平均提升可达 up to 4 个百分点（使用 ResNet-50 和 ViT-B/16 骨干）。
在 16-shot ViT-B/16 实验中，HOSO-Adapter 平均达到 80.33%，超出验证无关的 CLIP-Adapter 超过 4.5 个点，并在较高 shot 设置下几乎达到测试集 oracle 的水平。
消融结果显示解耦优化和使用 1-shot 缓存至关重要；移除 1-shot 缓存或进行联合训练会降低性能。
16-shot ViT-B/16 的结果在细粒度数据集上表现出显著提升（如 EuroSAT +14.8 点，DTD +11.0，FGVCAircraft +9.1），并且总体上具备与 oracle 基线的竞争力。
HOSO-Adapter 在保持 alpha 保守和基于保留缓存反馈动态调节适配器影响方面，始终降低过拟合风险。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。