QUICK REVIEW

[논문 리뷰] StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners

Yonglong Tian, Lijie Fan|arXiv (Cornell University)|2023. 06. 01.

Multimodal Machine Learning Applications인용 수 23

한 줄 요약

요약: 이 논문은 Stable Diffusion으로 생성한 합성 이미지에서 자기지도 학습이 실제 이미지 기반의 기준과 동일하거나 이를 능가할 수 있음을 보여주고, 여러 캡션에서 얻은 다중 이미지를 활용해 표현을 개선하는 다중-양성 대조학습 방법인 StableRep을 소개합니다.

ABSTRACT

We investigate the potential of learning visual representations using synthetic images generated by text-to-image models. This is a natural question in the light of the excellent performance of such models in generating high-quality images. We consider specifically the Stable Diffusion, one of the leading open source text-to-image models. We show that (1) when the generative model is configured with proper classifier-free guidance scale, training self-supervised methods on synthetic images can match or beat the real image counterpart; (2) by treating the multiple images generated from the same text prompt as positives for each other, we develop a multi-positive contrastive learning method, which we call StableRep. With solely synthetic images, the representations learned by StableRep surpass the performance of representations learned by SimCLR and CLIP using the same set of text prompts and corresponding real images, on large scale datasets. When we further add language supervision, StableRep trained with 20M synthetic images achieves better accuracy than CLIP trained with 50M real images.

연구 동기 및 목표

텍스트-이미지 모델(Stable Diffusion)로 생성된 합성 데이터에서 시각 표현 학습의 동기를 제시한다.
자기지도 학습을 위한 이미지 품질/다양성에 영향을 주는 가이드 스케일의 효과를 조사한다.
캡션당 여러 합성 이미지를 활용하는 다중-양성 대조 손실(St ableRep)을 개발한다.
ImageNet 선형 프로브, 소량 샷 태스크, 크로스 도메인 데이터셋에서 표현 품질을 평가한다.
합성 데이터와 결합된 언어 지도 학습의 영향을 탐구한다

제안 방법

대규모 이미지-텍스트 데이터셋(CC3M, CC12M, RedCaps)의 각 캡션에서 Stable Diffusion으로 하나의 이미지를 생성한다.
합성 이미지에서SimCLR, MAE, BYOL, MoCo-v3, DINO 등의 자기지도 방법을 학습하고 실제 이미지 베이스라인과 비교한다.
StableRep 도입: 서로 다른 잠재 노이즈를 통해 캡션당 다수의 이미지를 생성하고 이 양성 간에 다중-양성 대조 손실을 적용한다.
다중-양성 손실을 실제 매칭 분포와 후보 임베딩의 소프트맥스 간의 교차 엔트로피로 형식화한다(식 2–4).
이미지 품질과 다양성을 균형 있게 조절하기 위한 가이드 스케일 w를 실험하고 선형 탐색, 소량 샷, 세그먼트 벤치마크를 평가한다.
선택적으로 언어 지도를 추가하여 StableRep+를 만들고 CLIP과 비교한다(언어 지도 추가).

실험 결과

연구 질문

RQ1합성 이미지에서의 자기지도 시각 표현 학습이 동일한 크기의 실제 이미지 학습과 맞먹거나 능가할 수 있는가?
RQ2동일 캡션에서 생성된 다중 이미지를 양성으로 간주하는 것이 표현을 개선하는가(StableRep)?
RQ3StableRep가 표준 벤치마크와 데이터셋에서 CLIP 및 SimCLR과 비교하여 어떤 성능을 보이는가?
RQ4합성 이미지 사전학습과 결합된 언어 지도 학습의 효과는 무엇인가?
RQ5디자인 선택(이미지 프롬프트, 가이드 스케일, 양성의 수)이 성능과 확장성에 어떤 영향을 미치는가?

주요 결과

Dataset	Real (SimCLR)	Syn (SimCLR)	Real (CLIP)	Syn (CLIP)	StableRep (Syn)	Notes
CC12M	61.5	70.3	63.7	67.8	73.5	Table 1a results for CC12M
RedCaps	61.8	71.9	62.8	69.2	74.5	Table 1b results for RedCaps

적절한 가이드 스케일(w≈6–8은 SSL에서, 2–10은 CLIP에서)으로 StableDiffusion을 사용하면 합성 이미지가 선형 평가에서 실제 이미지 SSL 베이스라인을 능가할 수 있다.
여러 프롬프트-생성 이미지를 사용하는 다중-양성 손실이 표현 품질을 향상시키며, StableRep은 합성 데이터를 사용한 여러 환경에서 SimCLR 및 CLIP을 능가한다.
StableRep는 합성 이미지로만 학습한 ViT-B/16에서 ImageNet에 대해 76.7% 선형 정확도를 달성한다.
언어 지도를 포함하면 2천만 개의 합성 이미지로 학습된 StableRep가 5천만 개의 실제 이미지로 학습된 CLIP보다 선형 정확도 면에서 우세하다.
StableRep+는 FairFace 및 ARO 벤치마크에서 공정성/구성성 지표를 향상시키며, 합성 데이터로도 일부 최악 클래스 정확도를 완화할 수 있다.
CC12M과 RedCaps에서 StableRep은 실제 이미지로 학습된 CLIP을 선형 탐색에서 능가하고 교차 도메인 성능이 강하게 나타난다(11개 데이터셋 평균).
소수 샷 태스크에서 StableRep은 여러 데이터셋에서 강한 결과를 보여주며 종종 CLIP 및 SimCLR 베이스라인을 상회한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.