[논문 리뷰] CLIPood: Generalizing CLIP to Out-of-Distributions
CLIPood는 Margin Metric Softmax 및 Beta Moving Average를 사용하여 도메인 시프트와 오픈 클래스 시나리오 모두에서 OOD 일반화를 개선하기 위해 CLIP을 미세조정한다.
Out-of-distribution (OOD) generalization, where the model needs to handle distribution shifts from training, is a major challenge of machine learning. Contrastive language-image pre-training (CLIP) models have shown impressive zero-shot ability, but the further adaptation of CLIP on downstream tasks undesirably degrades OOD performances. This paper aims at generalizing CLIP to out-of-distribution test data on downstream tasks. We propose CLIPood, a fine-tuning method that can adapt CLIP models to OOD situations where both domain shifts and open classes may occur on the unseen test data. To exploit the semantic relations between classes from the text modality, CLIPood introduces a new training objective, margin metric softmax (MMS), with class adaptive margins for fine-tuning. To incorporate both pre-trained zero-shot model and fine-tuned task-adaptive model, CLIPood leverages a new optimization strategy, Beta moving average (BMA), to maintain a temporal ensemble weighted by Beta distribution. Experiments on diverse datasets with different OOD scenarios show that CLIPood consistently outperforms existing generalization techniques.
연구 동기 및 목표
- 도메인 시프트와 오픈 클래스를 포함한 OOD 데이터에 대한 하류 작업으로 CLIP 모델의 일반화를 어떻게 달성할 수 있는지 조사한다.
- 교차 모달 이미지-텍스트 정렬을 보존하면서 OOD 일반화를 향상시키는 미세조정 방법을 설계한다.
- 텍스트 모달리티의 의미 관계를 활용하여 미세조정을 안내한다.
- 사전 학습된 제로샷 지식과 작업 특성 적응을 모두 보존하는 최적화 전략을 제안한다.
- 다양한 OOD 벤치마크에서 CLIPood를 평가하여 기존 방법에 비해 일관된 개선을 입증한다.
제안 방법
- 작업 프롬프트에서 생성된 클래스 텍스트 임베딩을 사용하여 이미지-텍스트 유사도를 예측함으로써 CLIP을 미세조정한다.
- 적응적 마진을 클래시 간 텍스트 임베딩 거리 기반으로 추가하는 Margin Metric Softmax(MMS)을 도입한다.
- 텍스트 인코더를 고정하여 광범위한 의미 관계를 보존하고 이미지 인코더만 미세조정한다.
- 미세조정 중 모델 체크포인트의 Beta Moving Average(BMA)를 유지하여 사전 학습된 지식과 작업 특성 지식을 함께 앙상블한다.
- Beta(β,β) 분포를 사용하여 시간적 앙상블 가중치를 계산하고 런타임에 이동 평균 모델을 업데이트한다.
- 크로스 모달 예측에 코사인 유사도와 온도 매개변수 tau를 사용하고 CLIP의 학습 프로토콜을 따른다.

실험 결과
연구 질문
- RQ1도메인 시프트와 오픈 클래스를 포함한 다운스트림 작업에 적응할 때 CLIP의 OOD 일반화를 어떻게 유지하도록 미세조정할 수 있는가?
- RQ2MMS를 통한 텍스트 공간 의미 관계 활용이 교차 모달 정렬과 다운스트림 OOD 성능을 향상시키는가?
- RQ3BMA와 같은 시간적 앙상블이 사전 학습된 제로샷 지식과 작업 특성 미세조정을 균형 있게 조합하여 OOD 강건성을 높일 수 있는가?
주요 결과
- CLIPood는 도메인 시프트 벤치마크(DomainBed 변형)와 분포 시프트가 있는 ImageNet 변형에서 기존 일반화 기법을 능가한다.
- CLIPood는 11개의 다운스트림 데이터 세트에서 제로샷 CLIP 및 기존 미세조정 방법에 비해 더 높은 오픈 클래스 일반화를 달성한다.
- 도메인 시프트와 오픈 클래스가 모두 있는 시나리오에서 CLIPood는 OfficeHome 및 DomainNet에서 제로샷 및 CoOp 베이스라인을 지속적으로 능가한다.
- 변동 실험에서 MMS와 BMA가 공동으로 더 나은 OOD 일반화에 기여하며 MMS는 의미 관계를 보존하고 BMA는 지식 출처의 균형을 맞춘다.
- EMA에 비해 BMA가 사전 학습된 지식과 미세조정된 지식을 더 잘 보존하여 더 나은 오픈 클래스 및 도메인 시프트 성능을 보인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.