Skip to main content
QUICK REVIEW

[논문 리뷰] ZeroDiff++: Substantial Unseen Visual-semantic Correlation in Zero-shot Learning

Zihan Ye, Shreyank N Gowda|arXiv (Cornell University)|2026. 02. 12.
Domain Adaptation and Few-Shot Learning인용 수 0
한 줄 요약

ZeroDiff++는 확산 기반 학습 및 테스트 시 적응을 도입하여 제로샷 학습에서 시각–의미 상관관계를 강화하고, 잘못된 상관관계와 데이터 부족 문제를 해결한다. 이는 확산 증강, 동적 인스턴스 수준 의미론, 상호 학습이 있는 다중 뷰 판별기, 그리고 보지 않은 클래스에 대한 확산 기반 테스트 시 적응/생성을 추가한다.

ABSTRACT

Zero-shot Learning (ZSL) enables classifiers to recognize classes unseen during training, commonly via generative two stage methods: (1) learn visual semantic correlations from seen classes; (2) synthesize unseen class features from semantics to train classifiers. In this paper, we identify spurious visual semantic correlations in existing generative ZSL worsened by scarce seen class samples and introduce two metrics to quantify spuriousness for seen and unseen classes. Furthermore, we point out a more critical bottleneck: existing unadaptive fully noised generators produce features disconnected from real test samples, which also leads to the spurious correlation. To enhance the visual-semantic correlations on both seen and unseen classes, we propose ZeroDiff++, a diffusion-based generative framework. In training, ZeroDiff++ uses (i) diffusion augmentation to produce diverse noised samples, (ii) supervised contrastive (SC) representations for instance level semantics, and (iii) multi view discriminators with Wasserstein mutual learning to assess generated features. At generation time, we introduce (iv) Diffusion-based Test time Adaptation (DiffTTA) to adapt the generator using pseudo label reconstruction, and (v) Diffusion-based Test time Generation (DiffGen) to trace the diffusion denoising path and produce partially synthesized features that connect real and generated data, and mitigates data scarcity further. Extensive experiments on three ZSL benchmarks demonstrate that ZeroDiff++ not only achieves significant improvements over existing ZSL methods but also maintains robust performance even with scarce training data. Code would be available.

연구 동기 및 목표

  • 기존 생성형 ZSL 방법에서 데이터 부족 상황을 특히 고려하여 잘못된 시각–의미 상관관계를 식별하고 정량화한다.
  • 확산 증강, 동적 인스턴스 수준 의미론, 상호 학습이 있는 다중 뷰 판별기를 통해 보이는 클래스 간 상관관계를 강화한다.
  • 실제 피처와 생성 피처를 연결하기 위해 확산 기반 테스트 시 적응(DiffTTA) 및 확산 기반 테스트 시 생성(DiffGen)을 활용하여 보지 않은 클래스 간 상관관계를 향상시킨다.

제안 방법

  • 제한된 데이터에서 무한한 잡음 특징을 생성하기 위해 확산 증강을 도입한다.
  • 인스턴스 수준의 의미론을 제공하기 위해 감독적 대조(SC) 표현을 사용한다.
  • 생성을 안내하기 위해 워스트스타인 상호 학습이 적용된 세 가지 판별기(적대적, 확산 기반, 표현)를 활용한다.
  • 가짜 라벨을 이용해 생성기를 적응시키기 위해 확산 기반 테스트 시 적응(DiffTTA)을 적용한다.
  • 확산 디노이징 경로를 추적하여 부분적으로 합성된 특징을 생성하기 위해 확산 기반 테스트 시 생성(DiffGen)을 적용한다.
  • 다양한 데이터 조건에서 생성적 ZSL를 평가하기 위한 새로운 프로토콜을 제공한다.

실험 결과

연구 질문

  • RQ1학습 데이터가 부족할 때 기존의 생성형 ZSL 메서드에서 잘못된 시각–의미 상관관계가 얼마나 보편적으로 나타나는가?
  • RQ2확산 기반 증강과 다중 뷰 판별기가 보이는 클래스 간 상관관계를 크게 확보하고 과적합을 줄일 수 있는가?
  • RQ3확산 기반 테스트 시 적응과 생성이 실제 피처와 보지 않은 클래스 피처 간 정합성을 향상시키고 데이터 부족 문제를 완화하는가?
  • RQ4ZeroDiff++가 다수의 ZSL 벤치마크 및 다양한 데이터 조건에서 강건한가?

주요 결과

  • ZeroDiff++는 다양한 학습 데이터 크기 하에서 세 가지 ZSL 벤치마크에서 새로운 최첨단 성능을 달성한다.
  • 확산 증강은 유효 학습 데이터 확장을 통해 판별기 과적합을 완화한다.
  • SC 기반 인스턴스 수준 표현은 정적 클래스 수준 레이블보다 더 풍부한 의미론을 제공하여 생성 품질을 향상시킨다.
  • 적대적, 확산, 표현 판별기 간의 상호 학습은 생성에 대한 특징 가이던스를 강화한다.
  • DiffTTA와 DiffGen은 가짜 라벨에 적응하고 생성된 피처를 실제 테스트 샘플과 연결함으로써 보지 않은 클래스 피처 정합성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.