QUICK REVIEW

[논문 리뷰] Photographic Image Synthesis with Cascaded Refinement Networks

Qifeng Chen, Vladlen Koltun|arXiv (Cornell University)|2017. 07. 28.

Generative Adversarial Networks and Image Synthesis참고 문헌 46인용 수 80

한 줄 요약

이 논문은 Cascaded Refinement Networks (CRN)을 도입하여 의미 지도를 바탕으로 포토리얼리스틱 이미지를 합성하는 단일 피드포워드 모델을 제시하며, 지각 회귀 손실로 학습되고 2 메가픽셀까지 확장 가능하며 GAN 기반 베이스라인보다 우수합니다.

ABSTRACT

We present an approach to synthesizing photographic images conditioned on semantic layouts. Given a semantic label map, our approach produces an image with photographic appearance that conforms to the input layout. The approach thus functions as a rendering engine that takes a two-dimensional semantic specification of the scene and produces a corresponding photographic image. Unlike recent and contemporaneous work, our approach does not rely on adversarial training. We show that photographic images can be synthesized from semantic layouts by a single feedforward network with appropriate structure, trained end-to-end with a direct regression objective. The presented approach scales seamlessly to high resolutions; we demonstrate this by synthesizing photographic images at 2-megapixel resolution, the full resolution of our training data. Extensive perceptual experiments on datasets of outdoor and indoor scenes demonstrate that images synthesized by the presented approach are considerably more realistic than alternative approaches. The results are shown in the supplementary video at https://youtu.be/0fhUJT21-bs

연구 동기 및 목표

픽셀 단위의 의미 지도를 조건으로 한 포토리얼리스틱 이미지를 생성하는 모델 개발.
대립적 학습을 피하고 안정적이며 엔드-투-엔드 회귀 접근법을 입증.
이미지 합성을 고해상도까지 확장(최대 2 MP)하며 현실감을 보존.
사람의 지각 연구를 활용해 강력한 베이스라인 대비 현실감을 평가.
주어진 의미 맵에 대한 출력의 다양성 탐구.

제안 방법

CRN( cascaded refinement network ) 제안: 4×8 레이아웃에서 시작해 증가 해상도에 걸친 일련의 정교화 모듈들.
각 모듈 M^i는 다운샘플된 레이아웃 L과 업샘플된 F^{i-1}를 받아 이를 연결(concatenate)하고 해당 해상도의 새로운 피처 맵을 출력.
3×3 합성곱, 레이어 정규화, Leaky ReLU를 사용하며 최종 출력은 3색 채널로의 1×1 프로젝션.
합성 이미지와 참조 이미지 간의 VGG-19 활성화 차이를 기반으로 한 지각(콘텐츠) 손실 L_{I,L} = sum_l lambda_l || Phi_l(I) - Phi_l(g(L;theta)) ||_1로 엔드-투-엔드 학습.
다중 스케일 손실을 사용하여 여러 VGG 층(conv1_2, conv2_2, conv3_2, conv4_2, conv5_2)의 특징 활용.
선택적으로 다양성 있는 출력을 생성하도록 k개의 이미지를 출력하고 의미 클래스별로 가장 좋은 콘텐츠를 선택하는 다양성 주도 손실을 사용.

실험 결과

연구 질문

RQ1단일 피드포워드 네트워크가 대립적 학습 없이 의미 지도로부터 포토리얼리스틱 이미지를 재현할 수 있는가?
RQ2다층-다중 해상도 아키텍처가 고해상도에서 고충실도 합성을 가능하게 하는가?
RQ3CRN이 GAN 기반 또는 다른 베이스라인과 비교해 지각적 현실감에서 어떤 차이가 있는가?
RQ4같은 의미 맵에 대해 다양한 출력을 생성할 수 있는가?
RQ5지각적(콘텐츠) 손실이 합성 품질과 현실감에 미치는 영향은 무엇인가?

주요 결과

CRN 이미지는 지각적 실험에서 GAN 기반 Isola 등 여러 베이스라인보다 더 현실적으로 평가된다.
엔드-투-엔드 학습으로 고해상도(최대 2백만 화소)까지 확장 가능하다.
사전 학습된 네트워크(VGG-19) 위의 지각 손실이 미세한 디테일과 전역 구조 모두를 향해 합성을 안내한다.
다양성 손실은 하나의 의미 맵에 대해 타당한 출력 모음을 생성하여 의미 클래스 간의 가변성을 분배한다.
시한이 있는 인간 연구에서 CRN이 시청 초기에도 실제 이미지에 근접한 현실감을 보여준다.
Cityscapes 및 NYU 데이터셋 전반에 걸쳐 CRN이 페어리얼 현실성 판단에서 베이스라인을 일관되게 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.