QUICK REVIEW

[논문 리뷰] Learning to Predict Layout-to-image Conditional Convolutions for Semantic Image Synthesis

Xihui Liu, Guojun Yin|arXiv (Cornell University)|2019. 10. 15.

Generative Adversarial Networks and Image Synthesis인용 수 92

한 줄 요약

CC-FPSE를 도입합니다: 레이아웃 조건부, 깊이 분해 합성.Conv와 피처 피라미드 의미 임베딩 판별기를 사용하여 의미적 레이아웃에서 고충실도이고 의미적으로 정렬된 이미지를 합성하는 제너레이터. Cityscapes, COCO-Stuff, ADE20K에서 최첨단 성능을 달성합니다.

ABSTRACT

Semantic image synthesis aims at generating photorealistic images from semantic layouts. Previous approaches with conditional generative adversarial networks (GAN) show state-of-the-art performance on this task, which either feed the semantic label maps as inputs to the generator, or use them to modulate the activations in normalization layers via affine transformations. We argue that convolutional kernels in the generator should be aware of the distinct semantic labels at different locations when generating images. In order to better exploit the semantic layout for the image generator, we propose to predict convolutional kernels conditioned on the semantic label map to generate the intermediate feature maps from the noise maps and eventually generate the images. Moreover, we propose a feature pyramid semantics-embedding discriminator, which is more effective in enhancing fine details and semantic alignments between the generated images and the input semantic layouts than previous multi-scale discriminators. We achieve state-of-the-art results on both quantitative metrics and subjective evaluation on various semantic segmentation datasets, demonstrating the effectiveness of our approach.

연구 동기 및 목표

생성기에서 어파인 모듈레이션을 넘어 더 표현력이 풍부한 의미 레이아웃의 활용 촉진.
의미 맵에서 예측된 위치별로 제어하는 레이아웃 조건부, 공간적으로 변하는 합성 커널을 제안합니다.
피처 피라미드 의미 임베딩 판별기로 현실성 및 의미 정렬 향상.
다수의 시맨틱 분할 데이터셋에서 최첨단 성능을 보여줍니다.
매개변수 관리를 위한 깊이wise 분리 컨볼루션을 활용한 효율적이고 확장 가능한 아키텍처를 제공합니다.

제안 방법

의미 레이아웃에서 공간적으로 변하는 커널을 예측하는 조건부 합성 블록을 제안합니다.
매개변수를 줄이기 위해 컨볼루션을 depthwise와 pointwise로 분해합니다.
글로벌 컨텍스트 인식 피처 피라미드 가중치 예측 네트워크를 사용하여 위치별 합성 가중치와 어텐션 맵을 생성합니다.
다중 스케일에서 고충실도 디테일과 의미 정렬을 보장하는 피처 피라미드 의미 임베딩 판별기를 도입합니다.
견인 손실(hinge loss) 대립적 객체함수와 지각 및 스타일/피처 매칭 손실을 함께 학습합니다.

실험 결과

연구 질문

RQ1제너레이터에서 의미 레이아웃을 사용하여 커널을 조건화함으로써 더 정밀하고 위치 특정 합성을 달성할 수 있는가?
RQ2레이아웃에서 공간적으로 변하는 depthwise 커널을 예측하는 것이 어파인 피처 모듈레이션보다 이미지 품질과 의미 정렬을 개선하는가?
RQ3의미 임베딩이 가능한 단일 피처 피라미드 기반 판별기가 다중 스케일 PatchGAN보다 디테일 적합성과 레이아웃 일관성을 더 잘 강제하는가?
RQ4CC-FPSE를 사용했을 때 Cityscapes, COCO-Stuff, ADE20K에서 SPADE 및 pix2pixHD와 같은 이전 방법 대비 정량적 이점은 무엇인가?

주요 결과

Dataset	mIOU/Accuracy (mIOU)	mIOU/Accuracy (Accu)	FID	Dataset 2 mIOU	Dataset 2 Accu	Dataset 2 FID	Dataset 3 mIOU	Dataset 3 Accu	Dataset 3 FID
COCO-Stuff	41.6	70.7	19.2	Cityscapes	65.5	82.3	54.3	ADE20K	43.7	82.9	31.7

제안된 CC-FPSE 방법은 Cityscapes, COCO-Stuff, ADE20K에서 다양한 지표(mIOU, 정확도, FID) 측면에서 최첨단 결과를 달성합니다.
깊이별 분리 파라미터화가 적용된 조건부 합성 블록은 전체 동적 필터보다 훨씬 적은 매개변수로 위치별 레이아웃 제어를 가능하게 합니다.
글로벌 맥락 인식 가중치 예측 네트워크와 피처 피라미드가 긴 범위 컨텍스트를 포함하여 가중치 예측을 개선합니다.
피처 피라미드 의미 임베딩 판별기가 생성 이미지와 입력 의미 레이아웃 간의 정렬을 향상시켜 질감/세부 묘사와 의미 일관성을 높입니다.
인간 지각 평가에서 CC-FPSE가 Cityscapes, COCO-Stuff, ADE20K에서 SPADE보다 더 높은 선호를 받았습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.