QUICK REVIEW

[논문 리뷰] Synthetic Data from Diffusion Models Improves ImageNet Classification

Shekoofeh Azizi, Simon Kornblith|arXiv (Cornell University)|2023. 04. 17.

Generative Adversarial Networks and Image Synthesis인용 수 79

한 줄 요약

대규모 텍스트-투-이미지 확산 모델(Imagen)을 ImageNet에 미세조정하면 ImageNet 생성에서 최첨단 FID 및 IS를 달성하고, 합성 데이터가 실데이터를 보강하도록 ResNet 및 ViT 아키텍처 전반에서 ImageNet 분류를 크게 향상시킨다.

ABSTRACT

Deep generative models are becoming increasingly powerful, now generating diverse high fidelity photo-realistic samples given text prompts. Have they reached the point where models of natural images can be used for generative data augmentation, helping to improve challenging discriminative tasks? We show that large-scale text-to image diffusion models can be fine-tuned to produce class conditional models with SOTA FID (1.76 at 256x256 resolution) and Inception Score (239 at 256x256). The model also yields a new SOTA in Classification Accuracy Scores (64.96 for 256x256 generative samples, improving to 69.24 for 1024x1024 samples). Augmenting the ImageNet training set with samples from the resulting models yields significant improvements in ImageNet classification accuracy over strong ResNet and Vision Transformer baselines.

연구 동기 및 목표

대규모 텍스트-투-이미지 확산 모델을 미세조정하여 클래스 조건부 ImageNet 데이터를 생성할 수 있는지 조사한다.
다양한 아키텍처에서 다운스트림 ImageNet 분류를 향상시키는 보조 데이터로서 합성 데이터의 효과를 평가한다.
생성 성능과 판별 성능을 모두 극대화하는 샘플링 및 미세조정 전략을 식별한다.

제안 방법

ImageNet 학습 세트에서 대규모 Imagen 텍스트-투-이미지 확산 모델을 미세조정하여 클래스-조건 생성기를 만든다.
샘플링 매개변수(가이드 가중치, 로그 분산, 노이즈 증강, 디노이징 스텝)를 조정하여 FID, IS, CAS를 최적화한다.
합성 데이터를 사용해 생성된 데이터를 평가하기 위해 합성 데이터로 분류기를 학습하고 실제 ImageNet 검증 데이터에서 테스트하여 FID/IS 및 CAS를 평가한다.
해상도(64x64, 256x256, 1024x1024) 및 모델 아키텍처(ResNet 및 ViT) 간의 성능을 비교한다.
보강 실험을 위한 ImageNet 클래스별로 균형 잡힌 대규모 합성 데이터 세트(1.2M에서 12M 이미지)를 구성한다.
생성 데이터의 규모 확장과 다양한 학습 세트 크기에 대한 다운스트림 정확도에 미치는 영향을 평가한다.

실험 결과

연구 질문

RQ1사전 학습된 확산 모델을 여러 해상도에서 고품질의 클래스-조건 ImageNet 샘플을 생성하도록 미세조정할 수 있는가?
RQ2이러한 미세조정된 모델에 의해 생성된 이미지가 데이터 증강에 사용될 때 다운스트림 ImageNet 분류를 향상시키는가?
RQ3샘플링 매개변수와 해상도가 샘플 품질(FID/IS)과 다운스트림 CAS 성능 간의 트레이드오프에 어떤 영향을 미치는가?

주요 결과

모델	FID 학습	FID 검증	IS
BigGAN-deep (Dhariwal & Nichol, 2021)	4.06	-	-
Improved DDPM (Nichol & Dhariwal, 2021)	2.92	-	-
ADM (Dhariwal & Nichol, 2021)	2.07	-	-
CDM (Ho et al, 2022)	1.48	2.48	67.95 ± 1.97
RIN (Jabri et al., 2022)	1.23	-	66.5
RIN + noise schedule (Chen, 2023)	2.04	-	55.8
Ours (Fine-tuned Imagen)	1.76	2.81	239.18 ± 1.14

미세조정된 Imagen은 256x256에서 최첨단 FID(1.76) 및 IS(239)와 새로운 CAS 64.96(256x256)에서 69.24(1024x1024)로 증가.
미세조정된 확산 모델의 합성 데이터는 ResNet 및 ViT 기반 분류기에 실제 데이터와 함께 추가될 때 ImageNet 정확도를 크게 향상시킨다.
CAS 향상은 특히 1024x1024에서 두드러지며 실제 데이터로 학습된 모델과의 격차를 좁힌다.
더 큰 합성 데이터 세트는 64x64에서 성능 향상을 계속할 수 있지만 1M 이미지를 넘는 고해상도에서 수익 감소 또는 편향된 이득을 보이며, 최적의 이득은 해상도와 샘플링 전략에 따라 달라진다.
실제 데이터와 합성 데이터를 결합하면 각각 단독일 때보다 더 큰 이득을 얻으며 다양한 아키텍처에서 상당한 이득이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.