QUICK REVIEW

[논문 리뷰] Semantic Image Synthesis via Diffusion Models

Wengang Zhou, Weilun Wang|arXiv (Cornell University)|2022. 06. 30.

Generative Adversarial Networks and Image Synthesis인용 수 87

한 줄 요약

이 논문은 Semantic Diffusion Model (SDM)을 도입하는 DDPM 기반 프레임워크로, 세먼틱 레이아웃과 노이즈 이미지의 처리를 SPADE 유사 조건화로 분리하여 분류기-프리 가이던스 없이도 고충실도와 다양성을 갖춘 시맨틱 이미지 합성을 달성합니다.

ABSTRACT

Denoising Diffusion Probabilistic Models (DDPMs) have achieved remarkable success in various image generation tasks compared with Generative Adversarial Nets (GANs). Recent work on semantic image synthesis mainly follows the de facto GAN-based approaches, which may lead to unsatisfactory quality or diversity of generated images. In this paper, we propose a novel framework based on DDPM for semantic image synthesis. Unlike previous conditional diffusion model directly feeds the semantic layout and noisy image as input to a U-Net structure, which may not fully leverage the information in the input semantic mask, our framework processes semantic layout and noisy image differently. It feeds noisy image to the encoder of the U-Net structure while the semantic layout to the decoder by multi-layer spatially-adaptive normalization operators. To further improve the generation quality and semantic interpretability in semantic image synthesis, we introduce the classifier-free guidance sampling strategy, which acknowledge the scores of an unconditional model for sampling process. Extensive experiments on four benchmark datasets demonstrate the effectiveness of our proposed method, achieving state-of-the-art performance in terms of fidelity (FID) and diversity (LPIPS). Our code and pretrained models are available at https://github.com/WeilunWang/semantic-diffusion-model.

연구 동기 및 목표

GAN 기반 방법보다 충실도와 다양성에서 시맨틱 이미지 합성에 대한 확산 모델 프레임워크를 개발한다.
시맨틱 마스크와 노이즈 입력의 분리된 처리를 활용해 시맨틱 정보를 더 잘 활용한다.
분류기-프리 가이던스를 통해 샘플링 품질과 시맨틱 일치를 개선한다.
Cityscapes, ADE20K, CelebAMask-HQ, COCO-Stuff 데이터셋에서 강력한 성능을 입증한다.

제안 방법

노이즈가 포함된 이미지가 인코더를 거치는 동안 시맨틱 레이아웃이 디코더에 다층 스페이셜 애드aptive normalization(SPADE)로 주입되는 조건부 디노이징 디퓨전 네트워크(SDM)를 사용한다.
인코더에서 SDEResblocks를 도입하고 주의(attention) 및 시점 기반 스케일링으로 디노이징한다.
SDDResblock과 같은 SPADE 유사 조건화를 통해 디코더에 시맨틱 정보를 주입해 디노이징을 유도한다.
간소화 손실(L_simple)과 분산 예측 손실(L_vlb)을 더해 우도 최대화를 목표로 학습한다(l_simple + lambda * L_vlb).
샘플링 도중 조건부와 무조건부 예측을 혼합하여 충실도와 시맨틱 정렬을 높이는 분류기-프리 가이던스(epsilon_theta(y_t|x) + s*(epsilon_theta(y_t|x) - epsilon_theta(y_t|empty))를 적용한다).
선택적으로 확률적 확산 프로세스를 활용해 다모달하고 다양한 생성을 수행한다.

실험 결과

연구 질문

RQ1확산 기반 프레임워크가 시맨틱 이미지 합성에서 충실도와 다양성 면에서 GAN 기반 방법을 능가할 수 있는가?
RQ2조건 정보(시맨틱 마스크)를 노이즈 이미지와 분리하면 시맨틱 관련성 및 시각적 품질이 향상되는가?
RQ3조건부 확산 모델에서 분류기-프리 가이던스의 충실도와 시맨틱 정렬 영향은 어떠한가?
RQ4SDM이 네 가지 벤치마크 데이터셋에서 FID, LPIPS, mIoU 기반 시맨틱 해석성 측면에서 어떤 성능을 보이는가?

주요 결과

Method	CelebAMask-HQ FID	CelebAMask-HQ LPIPS	Cityscapes FID	Cityscapes LPIPS	ADE20K FID	ADE20K LPIPS	COCO-Stuff FID	COCO-Stuff LPIPS
Pix2PixHD [48]	38.5	0	95.0	0	81.8	0	111.5	0
SPADE [31]	29.2	0	71.8	0	22.6	0	33.9	0
DAGAN [44]	29.1	0	60.3	0	31.9	0	n/a	0
SCGAN [50]	20.8	0	49.5	0	29.3	0	18.1	0
CLADE [43]	30.6	0	57.2	0	35.4	0	29.2	0
CC-FPSE [24]	n/a	n/a	54.3	0.026	31.7	0.078	19.2	0.098
GroupDNet [57]	25.9	0.365	47.3	0.101	41.7	0.230	n/a	n/a
INADE [42]	21.5	0.415	44.3	0.295	35.2	0.459	n/a	n/a
OASIS [41]	n/a	n/a	47.7	0.327	28.3	0.286	17.0	0.328
SDM (Ours)	18.8	0.422	42.1	0.362	27.5	0.524	15.9	0.518

SDM이 이전 방법들과 비교하여 네 가지 벤치마크에서 최첨단 FID와 LPIPS를 달성한다.
디코더에서 다층 SPADE-유사 조건화를 통해 시맨틱 레이아웃을 임베딩하는 방식이 간단한 연결(concatenation)보다 충실도와 시맨틱 관련성을 크게 향상시킨다.
분류기-프리 가이던스는 mIoU와 FID를 크게 개선하고 LPIPS의 약간의 변화만으로도 시맨틱 정렬을 더 잘 달성한다.
SDM은 고품질의 다양하고 시맨틱한 이미지 합성을 제공하며, 다모달 생성과 실제 이미지에서의 시맨틱 편집도 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.