Skip to main content
QUICK REVIEW

[논문 리뷰] Text-to-Image Diffusion Models are Zero-Shot Classifiers

Kevin Clark, Priyank Jaini|arXiv (Cornell University)|2023. 03. 27.
Multimodal Machine Learning Applications인용 수 16
한 줄 요약

논문은 텍스트-투-이미지 확산 모델(예: Imagen, Stable Diffusion)을 제로샷 이미지 분류기로 사용할 수 있음을 보여주며, 노이즈 제거를 클래스 가능도의 대리로 취급하여 경쟁력 있는 정확도와 CLIP에 필적하는 성능, 질감 단서와 속성 바인딩에 대한 강건성을 보이고, 또한 접근법을 더 실용적으로 만들 효율성 기법을 도입한다.

ABSTRACT

The excellent generative capabilities of text-to-image diffusion models suggest they learn informative representations of image-text data. However, what knowledge their representations capture is not fully understood, and they have not been thoroughly explored on downstream tasks. We investigate diffusion models by proposing a method for evaluating them as zero-shot classifiers. The key idea is using a diffusion model's ability to denoise a noised image given a text description of a label as a proxy for that label's likelihood. We apply our method to Stable Diffusion and Imagen, using it to probe fine-grained aspects of the models' knowledge and comparing them with CLIP's zero-shot abilities. They perform competitively with CLIP on a wide range of zero-shot image classification datasets. Additionally, they achieve state-of-the-art results on shape/texture bias tests and can successfully perform attribute binding while CLIP cannot. Although generative pre-training is prevalent in NLP, visual foundation models often use other methods such as contrastive learning. Based on our findings, we argue that generative pre-training should be explored as a compelling alternative for vision-language tasks.

연구 동기 및 목표

  • 텍스트-투-이미지 확산 모델이 제로샷 분류에 적합한 전달 가능한 표현을 학습하는지 조사한다.
  • 다양한 제로샷 이미지 분류 작업에서 확산 모델과 CLIP를 정량적으로 비교한다.
  • 질감-형상 충돌에 대한 확산 모델의 강건성과 속성 바인딩 수행 능력을 검토한다.
  • 확산 모델로 실용적인 제로샷 분류를 가능하게 하는 효율성 향상을 개발한다.

제안 방법

  • 클래스 라벨을 텍스트 프롬프트로 변환하고 로그 가능도의 대리 지표로서 재가중 변분 하한을 통해 이미지 점수를 매기기 위해 확산 모델을 사용한다.
  • 제로샷 분류기의 결정을 확산 손실 L_Diffusion을 확률적 노이즈 제거 단계에서 최소화하는 클래스를 선택하는 것으로 정의한다.
  • 확산 손실의 기대치를 시간 단계와 순전방 노이즈 샘플에 대해 몬테카를로 샘플링으로 추정한다.
  • 다음과 같이 노이즈를 클래스 간에 공유하여 동일한 노이즈가 주어진 이미지에 대해 모든 후보 클래스에 대해 점수화되도록 하여 분산을 줄여 효율성을 향상시킨다.
  • 온라인으로 그럴듯하지 않은 클래스들을 제거하고 유의미한 클래스로 더 많은 샘플을 할당하기 위해 짝지어진 t-검정을 사용하여 연속 제거 절차를 형성한다.

실험 결과

연구 질문

  • RQ1텍스트-투-이미지 확산 모델이 다양한 데이터셋에서 효과적인 제로샷 분류기로 기능할 수 있는가?
  • RQ2확산 기반 제로샷 분류기가 작업 전반에서 정확도와 강건성 측면에서 CLIP와 어떻게 비교되는가?
  • RQ3전통적 판별 모델을 오도하는 질감 또는 스타일 단서에 대해 확산 모델이 강건성을 보이는가?
  • RQ4확산 모델은 CLIP이 보여주는 것 이상으로 속성 바인딩 및 구성적 추론 능력이 있는가?

주요 결과

  • 확산 모델은 다양한 데이터셋에서 CLIP와 경쟁할 만큼의 제로샷 분류 정확도를 달성한다.
  • Imagen 및 Stable Diffusion은 질감 단서에 대해 강건성을 보이며 Cue-Conflict 데이터셋에서 최첨단 성능을 달성한다.
  • 확산 모델은 합성 데이터에서 속성 바인딩을 수행할 수 있으며 일부 설정에서 CLIP은 불가능하다.
  • 제안된 효율성 기법(공유 노이즈 및 가지치기)은 계산량을 크게 줄여 제로샷 평가를 더 빠르게 만들지만 여전히 일반적인 판별 분류기보다 느리다.
  • 본 연구는 생성적 사전학습이 판별 작업에 적합한 강력한 비전-언어 표현을 제공할 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.