Skip to main content
QUICK REVIEW

[논문 리뷰] WARM-CAT: Warm-Started Test-Time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning

Xudong Yan, Songhe Feng|arXiv (Cornell University)|2026. 02. 26.
Domain Adaptation and Few-Shot Learning인용 수 0
한 줄 요약

WARM-CAT은 테스트 시 무감독 데이터를 활용하여 다중 모달 지식을 점진적으로 축적하고 텍스트 및 시각 프로토타입을 업데이트하며 CZSL의 라벨 분포 변화 문제를 다루고, 동적 우선순위 큐와 적응 업데이트를 통해 새로운 데이터셋과 평가를 제공한다.

ABSTRACT

Compositional Zero-Shot Learning (CZSL) aims to recognize novel attribute-object compositions based on the knowledge learned from seen ones. Existing methods suffer from performance degradation caused by the distribution shift of label space at test time, which stems from the inclusion of unseen compositions recombined from attributes and objects. To overcome the challenge, we propose a novel approach that accumulates comprehensive knowledge in both textual and visual modalities from unsupervised data to update multimodal prototypes at test time. Building on this, we further design an adaptive update weight to control the degree of prototype adjustment, enabling the model to flexibly adapt to distribution shift during testing. Moreover, a dynamic priority queue is introduced that stores high-confidence images to acquire visual prototypes from historical images for inference. Since the model tends to favor compositions already stored in the queue during testing, we warm-start the queue by initializing it with training images for visual prototypes of seen compositions and generating unseen visual prototypes using the mapping learned between seen and unseen textual prototypes. Considering the semantic consistency of multimodal knowledge, we align textual and visual prototypes by multimodal collaborative representation learning. To provide a more reliable evaluation for CZSL, we introduce a new benchmark dataset, C-Fashion, and refine the widely used but noisy MIT-States dataset. Extensive experiments indicate that our approach achieves state-of-the-art performance on four benchmark datasets under both closed-world and open-world settings. The source code and datasets are available at https://github.com/xud-yan/WARM-CAT .

연구 동기 및 목표

  • unseen 속성-객체 조합으로 인한 테스트 시 라벨 공간의 분포 변화 문제를 해결하여 CZSL를 동기화한다.
  • 무라벨 데이터에서 텍스트 및 시각 모달리티를 활용하는 테스트 시 지식 축적 프레임워크를 개발한다.
  • 망각과 지연을 완화하며 템플릿을 업데이트하는 적응 메커니즘을 도입한다.
  • 새로운 패션 도메인 CZSL 벤치마크(C-Fashion)를 제공하고 공정한 평가를 위해 MIT-States를 다듬는다.
  • 폐쇄 세계와 개방 세계 설정에서 여러 CZSL 벤치마크에서 최신 성능을 입증한다.

제안 방법

  • 텍스트 프로토타입은 동결 텍스트 인코더를 통해_seen_ 및 unseen_ 조합으로부터 구성하고 프롬프트 튜닝이 적용된 CLIP 기반 베이스 모델과 어댑터-튜닝된 시각 인코더를 사용한다.
  • 텍스트 프로토타입은 고정된 텍스트 인코더를 통해Seen과 unseen 구성 모두에서 구성한다.
  • 각 구성에 대한 시각 프로토타입을 형성하기 위해 신뢰도 높은 테스트 이미지를 동적 우선순위 큐로 유지한다.
  • 텍스트 및 시각 프로토타입을 온라인으로 업데이트하기 위해 Adaptive update weights를 갖춘 Knowledge Accumulation Modules(KAMs)을 도입한다.
  • Seen 텍스트 프로토타입을 unseen로 매핑하여 unseen 시각 프로토타입을 생성하며, 코사인 유사도 기반 매핑 매트릭스를 사용한다.
  • 테스트 시 예측 엔트로피를 최소화하고 다중 모달 협력 표현 학습을 적용하여 텍스트 및 시각 프로토타입을 정렬한다.
  • 엔트로피 최소화와 텍스트-시각 프로토타입 간 대조 학습의 조합으로 끝-to-end 최적화하고 효율성을 위해 역전파를 지연한다.
Figure 1: At test time , existing methods ( top ) fail to adapt using test images, resulting in biased prediction distributions due to label space shift. By contrast, WARM-CAT ( bottom ) progressively accumulates multimodal knowledge from unsupervised test data, enabling effective adaptation to addr
Figure 1: At test time , existing methods ( top ) fail to adapt using test images, resulting in biased prediction distributions due to label space shift. By contrast, WARM-CAT ( bottom ) progressively accumulates multimodal knowledge from unsupervised test data, enabling effective adaptation to addr

실험 결과

연구 질문

  • RQ1테스트 시의 무라벨 데이터가_seen_ 구성의 잊힘 없이 CZSL의 라벨 분포 차이를 좁혀 줄 수 있는가?
  • RQ2테스트 중에 텍스트 및 시각 프로토타입을 효과적으로 결합하고 적응적으로 업데이트하는 방법은 무엇인가?
  • RQ3고신뢰도 시각 표본 큐가 분포 변화 하에서 CZSL을 개선하는 데 어떤 역할을 하는가?
  • RQ4Seen–Unseen 텍스트 매핑에서 생성된 unseen 시각 프로토타입이 개방형 CZSL 성능을 향상시키는가?
  • RQ5제안된 지표와 벤치마크가 장향 CZSL 설정에서의 성능을 어떻게 반영하는가?

주요 결과

  • 폐쇄 세계와 개방 세계 설정 모두에서 네 개의 CZSL 벤치마크에서 최첨단 성능을 달성한다.
  • 테스트 시 무감독 지식 축적을 통해 라벨 분포 변화 문제를 효과적으로 다룬다.
  • 웜 스타트된 우선순위 큐와 텍스트-시각 매핑을 통한 unseen 시각 프로토타입 생성을 통해 이점을 보인다.
  • 새로운 C-Fashion 및 MIT-States∗ 데이터셋에 대한 검증과 장향 CZSL 분포에 대한 dedicated 평가를 수행한다.
  • 장향 CZSL 분포에 대한 검증된 평가 및 새로운 데이터셋에서 접근 방식의 효과를 입증한다.
Figure 2: Prompt tuning of the text encoder and adapter tuning of the visual encoder during training.
Figure 2: Prompt tuning of the text encoder and adapter tuning of the visual encoder during training.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.