QUICK REVIEW

[논문 리뷰] Hold-One-Shot-Out (HOSO) for Validation-Free Few-Shot CLIP Adapters

Chris Vorster, Mayug Maniparambil|arXiv (Cornell University)|2026. 03. 04.

Domain Adaptation and Few-Shot Learning인용 수 0

한 줄 요약

요약: 이 논문은 1-shot 보유 캐시를 사용하여 CLIP 어댑터를 혼합 비율을 학습하는 검증 필요 없는 방법인 HOSO-Adapter를 소개합니다. 11개 데이터셋에서 소수 샷 전송을 개선하고 더 높은샷 설정에서 테스트 세트의 오라클 성능에 거의 근접합니다.

ABSTRACT

In many CLIP adaptation methods, a blending ratio hyperparameter controls the trade-off between general pretrained CLIP knowledge and the limited, dataset-specific supervision from the few-shot cases. Most few-shot CLIP adaptation techniques report results by ablation of the blending ratio on the test set or require additional validation sets to select the blending ratio per dataset, and thus are not strictly few-shot. We present a simple, validation-free method for learning the blending ratio in CLIP adaptation. Hold-One-Shot-Out (HOSO) presents a novel approach for CLIP-Adapter-style methods to compete in the newly established validation-free setting. CLIP-Adapter with HOSO (HOSO-Adapter) learns the blending ratio using a one-shot, hold-out set, while the adapter trains on the remaining few-shot support examples. Under the validation-free few-shot protocol, HOSO-Adapter outperforms the CLIP-Adapter baseline by more than 4 percentage points on average across 11 standard few-shot datasets. Interestingly, in the 8- and 16-shot settings, HOSO-Adapter outperforms CLIP-Adapter even with the optimal blending ratio selected on the test set. Ablation studies validate the use of a one-shot hold-out mechanism, decoupled training, and improvements over the naively learnt blending ratio baseline. Code is released here: https://github.com/chris-vorster/HOSO-Adapter

연구 동기 및 목표

CLIP 어댑터에서 데이터셋별 혼합 비율을 엄격한 few-shot, no-validation 설정 하에서 선택하는 문제를 동기화하고 해결한다.
1-shot 보유 캐시를 사용하는 검증 필요 없는 혼합 비율 학습 접근(HOSO)을 제안한다.
분리된 최적화와 보유 캐시가 few-shot CLIP 적응에서 일반화와 과적합 감소에 기여한다는 것을 입증한다.
다양한 데이터셋과 백본에서 검증 필요 없는 혼합 비율 학습의 최신 성능을 보여준다.

제안 방법

CLIP 비전 특징과 어댑터 특징을 결합하기 위한 학습 가능한 혼합 비율 alpha를 도입: v_hat = (1-alpha) v + alpha v_adapt.
alpha를 학습 가능한 로지트로 매개화하고 시그모이드 스케일링으로 alpha를 [0.1, 0.9]로 유지.
클래스당 하나의 이미지를 검증용으로 선택하고, 이를 훈련에서 제거하며, 클래스 텍스트 프로토타입을 사전 계산하는 hold-one-shot-out 캐시를 생성.
감 decoupled optimization를 통해 hold-out 캐시에서 alpha_logit를 최적화하는 동안 reduced K-1 샷 세트에서 어댑터 psi를 훈련.
제로샷과 같은 목적을 가능하게 하기 위해 클래스 프로토타입의 텍스트 특징 t_c를 미리 계산.
두 개의 옵티마이저를 사용하여 S'의 어댑터와 C의 alpha_logit를 각각 학습시켜 분리된 학습과 과적합 감소를 보장.

실험 결과

연구 질문

RQ11-shot 보유 캐시를 사용하여 CLIP 어댑터에 대해 검증 필요 없는 혼합 비율을 효과적으로 학습할 수 있는가?
RQ2어댑터와 혼합 비율의 분리된 최적화가 few-shot CLIP 적응에서 일반화를 향상시키는가?
RQ3다양한 데이터셋에서 검증 필요 없는 혼합 비율 방법이 오라클(테스트 세트 조정) 성능에 얼마나 근접할 수 있는가?
RQ4Hold-out 캐시 크기가 혼합 비율 추정 및 어댑터 성능에 어떤 영향을 미치는가?
RQ5HOSO 접근법이 ResNet-50과 ViT 백본에서 백본 독립적(backbone-agnostic)한가?

주요 결과

Method	Caltech101	DTD	EuroSAT	FGVCAircraft	Food101	ImageNet	Flowers102	OxfordPets	StanfordCars	SUN397	UCF101	Average
CLIP-Adapter (best α) †	95.90	71.70	85.80	45.80	89.30	71.50	97.40	92.70	82.10	75.60	84.00	81.07
CLIP-Adapter (α=0.2) ∗	94.90	59.70	70.50	34.10	89.10	71.50	93.10	92.60	73.90	74.20	80.40	75.82
HOSO-Adapter (ours)	95.40	70.67	85.30	43.23	88.97	70.93	97.23	92.27	81.50	74.67	83.43	80.33

HOSO-Adapter는 검증 필요 없는 설정에서 CLIP-Adapter 기준선을 상회하며 11개 데이터셋(R esNet-50 및 ViT-B/16 백본)에서 평균적으로 최대 4 포인트포인트까지 향상시켰다.
16-shot ViT-B/16 실험에서 HOSO-Adapter는 평균 80.33%를 달성하며, 검증 필요 없는 CLIP-Adapter보다 4.5포인트 이상 향상했고 더 높은 샷 설정에서 테스트 세트의 오라클에 거의 근접했다.
변동성 제거에 결정적임을 보여주는 연구로, 분리된 최적화와 1-shot 캐시의 사용이 중요하며 1-shot 캐시를 제거하거나 공동 학습하는 경우 성능이 저하된다.
16-shot ViT-B/16 결과는 미세한 데이터셋에서 상당한 이득을 보여주며(예: EuroSAT +14.8 포인트, DTD +11.0, FGVCAircraft +9.1) 오라클 기준선과의 전반적 경쟁력을 시현한다.
HOSO-Adapter는 보류 캐시 피드백에 따라 어댑터의 영향을 동적으로 조절하고 알파를 보수적으로 유지하여 과적합을 일관되게 줄인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.