QUICK REVIEW

[논문 리뷰] Learning to Predict Layout-to-image Conditional Convolutions for Semantic Image Synthesis

Xihui Liu, Guojun Yin|arXiv (Cornell University)|2019. 10. 15.

Generative Adversarial Networks and Image Synthesis참고 문헌 35인용 수 80

한 줄 요약

논문은 CC-FPSE를 도입하여, 깊이별 분리 합성(convolution)으로 조건부의 시각적으로 변화하는 커널을 의미론 레이아웃으로 조건지으며, 특징 피라미드 의미 임베딩 판별기를 추가하여 Cityscapes, COCO-Stuff, ADE20K에서 최첨단 성능을 달성합니다.

ABSTRACT

Semantic image synthesis aims at generating photorealistic images from semantic layouts. Previous approaches with conditional generative adversarial networks (GAN) show state-of-the-art performance on this task, which either feed the semantic label maps as inputs to the generator, or use them to modulate the activations in normalization layers via affine transformations. We argue that convolutional kernels in the generator should be aware of the distinct semantic labels at different locations when generating images. In order to better exploit the semantic layout for the image generator, we propose to predict convolutional kernels conditioned on the semantic label map to generate the intermediate feature maps from the noise maps and eventually generate the images. Moreover, we propose a feature pyramid semantics-embedding discriminator, which is more effective in enhancing fine details and semantic alignments between the generated images and the input semantic layouts than previous multi-scale discriminators. We achieve state-of-the-art results on both quantitative metrics and subjective evaluation on various semantic segmentation datasets, demonstrating the effectiveness of our approach.

연구 동기 및 목표

생성기 컨볼루션에서 단순 입력 또는 어피니 모듈링만으로가 아니라 의미 론적 레이아웃의 명시적 사용을 동기화한다.
공간적으로 변화하는 가중치를 갖는 깊이별 분해 합성을 사용한 경량의 레이아웃-조건 생성기를 제안한다.
고충실도 디테일과 의미 정렬을 강화하기 위한 피처 피라미드 의미 임베딩 판별기를 도입한다.
Cityscapes, COCO-Stuff, ADE20K에서 최첨단 정량 및 정성 결과를 보여준다.
조건부 합성, 가중치 예측, 판별기 설계의 기여를 검증하기 위한 분석을 제공한다.

제안 방법

의미론적 레이아웃에 조건화된 공간적으로 변화하는 합성 커널을 전역 컨텍스트 인식 가중치 예측 네트워크와 피처 피라미드를 사용해 예측한다.
매개변수 수를 관리하기 위해 깊이별 합성(가중치는 위치별로 예측)과 포인트와이즈 합성을 분해한다.
생성기에서 정보 흐름을 제어하는 조건부 주의 메커니즘을 도입한다.
다중 스케일 특징을 융합하고 의미 임베딩 모듈을 통해 의미 정렬을 유지하면서 질감/에지를 강화하는 피처 피라미드 판별기를 개발한다.
힌지 GAN 손실, 지각 손실, 특징 매칭 손실 및 다중 모드 합성에 대한 스타일/KL 항을 선택적으로 사용해 학습한다.
종단 간 CC-FPSE 생성기와 FPSE 판별기 아키텍처를 제공한다(의미적 패치 임베딩 메커니즘 포함).

실험 결과

연구 질문

RQ1의미론적 레이아웃을 공간적으로 변화하는 커널로 조건화하는 것이 합성 충실도와 의미 정렬을 향상시키는가?
RQ2깊이별 분해 조건화가 매개변수 증가를 과다하게 하지 않으면서 레이아웃 인식을 도입하는 확장 가능한 방법인가?
RQ3피처 피라미드 의미 임베딩 판별기는 기존 판별기보다 고충실도 디테일과 의미 레이아웃 정렬 모두를 더 잘 강제하는가?
RQ4조건부 합성, 가중치 예측 아키텍처, 및 판별기 설계의 분석이 세분화 품질과 리얼리즘에 어떤 영향을 미치는가?

주요 결과

데이터세트	mIOU	정확도	FID
COCO-Stuff	41.6	70.7	19.2
Cityscapes	65.5	82.3	54.3
ADE20K	43.7	82.9	31.7

CC-FPSE는 Cityscapes, COCO-Stuff, ADE20K 데이터셋에서 이미지 충실도와 의미 정렬 모두를 향상시켜 최첨단 결과를 달성한다.
COCO-Stuff, Cityscapes, ADE20K에서 제안된 방법은 기존 방법인 SPADE 및 pix2pixHD에 비해 더 높은 mIOU 및 정확도와 더 낮은 FID를 보인다.
ABLations는 조건부 합성은 SPADE 기반 생성기보다 우수하고, 피처 피라미드 가중치 예측이 이점이 있으며, 의미 임베딩 판별기가 정렬을 더 개선함을 보여준다.
정성적 결과는 더 미세한 디테일, 질감, 아티팩트 감소를 보여주며 입력 의미 레이아웃에 더 잘 일치한다.
사람 인지 평가 결과 Cityscapes(55%), COCO-Stuff(76%), ADE20K(61%)에서 CC-FPSE 생성 이미지가 SPADE보다 선호된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.