QUICK REVIEW

[논문 리뷰] Using latent space regression to analyze and leverage compositionality in GANs

Lucy Chai, Jonas Wulff|arXiv (Cornell University)|2021. 03. 18.

Generative Adversarial Networks and Image Synthesis참고 문헌 51인용 수 30

한 줄 요약

본 논문은 이미지를 고정된 GAN의 잠재 코드로 매핑하는 잠재 공간 회귀기를 학습시켜, GAN의 잠재 선제를 활용해 이미지 파트에서 일관된 합성을 생성하고 라벨 없이 실시간 편집과 구성을 가능하게 한다.

ABSTRACT

In recent years, Generative Adversarial Networks have become ubiquitous in both research and public perception, but how GANs convert an unstructured latent code to a high quality output is still an open question. In this work, we investigate regression into the latent space as a probe to understand the compositional properties of GANs. We find that combining the regressor and a pretrained generator provides a strong image prior, allowing us to create composite images from a collage of random image parts at inference time while maintaining global consistency. To compare compositional properties across different generators, we measure the trade-offs between reconstruction of the unrealistic input and image quality of the regenerated samples. We find that the regression approach enables more localized editing of individual image parts compared to direct editing in the latent space, and we conduct experiments to quantify this independence effect. Our method is agnostic to the semantics of edits, and does not require labels or predefined concepts during training. Beyond image composition, our method extends to a number of related applications, such as image inpainting or example-based image editing, which we demonstrate on several GANs and datasets, and because it uses only a single forward pass, it can operate in real-time. Code is available on our project page: https://chail.github.io/latent-composition/.

연구 동기 및 목표

사전 학습된 GAN의 잠재 공간이 객체와 장면의 구성 표현을 담고 있는지 조사한다.
손실 항목으로 이미지 재구성, 지각적 손실, 잠재 코드 재구성 항을 포함하는 손실 함수를 사용하여 입력을 GAN 잠재 코드로 매핑하는 빠른 순전파 잠재 회귀기를 개발한다.
깊은 구간의 입력을 투입하고 G를 고정한 상태에서 E의 순전파 역추정이 가능한 실시간 이미지 편집과 콜리지 구성을 입증한다.
다양한 아키텍처와 데이터셋에서 입력 재구성 충실도와 출력 현실성 간의 트레이드오프를 정량화한다.
레이블 감독 없이 인페인팅, 장면 보정, 데이터셋 재균형화에 대한 이 접근법의 응용을 보인다.

제안 방법

입력 이미지 x에서 잠재 코드 z를 예측하도록 잠재 회귀 네트워크 E를 학습시키고, 이미지 재구성, 지각, 잠재 코드 재구성 항목을 포함하는 손실을 사용한다.
GAN 생성기 G(예: ProGAN, StyleGAN)를 고정한 채 E를 학습시켜 G를 업데이트하지 않고도 순전파 역추정을 가능하게 한다.
손실로 일관된 잠재 코드를 학습하도록 마스크 입력 (x_m, m)을 제공하고 손실을 확장하여 알 수 없는 픽셀에도 불구하고 일관된 잠재 코드를 학습한다.
회귀기-생성기 조합을 강력한 이미지 프리오리로 사용하여 이미지 파트의 콜라주를 이미지 매니폴드에 투영하고 일관된 합성을 생성한다.
이미지 구성을 파트들로부터 x_clg를 만들고 E와 G를 통해 재투영하여 x_rec를 얻는 방식으로 형성하여 혼합, 정렬 및 인페인팅을 가능하게 한다.
마스크된 L1 및 FID와 같은 지표를 사용하여 여러 데이터셋에서 인코더 기반, 최적화 기반, 오토인코더 접근 방식 간의 재구성-현실성 트레이드오프를 비교한다.

실험 결과

연구 질문

RQ1사전 학습된 GAN의 잠재 코드가 이미지 부분의 개별 편집을 가능하게 하는 구성 구조를 인코딩하는가?
RQ2라벨이 부여된 속성 없이도 하나의 순전파 잠재 회귀기가 이미지 부분의 현실적인 구 성을 가능하게 하는가?
RQ3잠재 회귀를 통한 구성과 단순한 잠재 공간 혹은 픽셀 공간 보간 간의 차이는 무엇인가?
RQ4회귀기가 불완전하거나 누락된 입력 영역을 어떻게 처리하며 여전히 일관된 출력을 생성하는가?
RQ5다양한 GAN 아키텍처와 데이터셋에 걸쳐 구성 특성이 어떻게 다른가?

주요 결과

회귀기와 고정된 생성기가 강력한 이미지 프리오리를 제공하여 콜라주 입력에서 현실적인 합성을 렌더링할 수 있다.
생성기의 잠재 코드는 이미 구성 구조를 내재화하고 있어 라벨이 없는 속성 편집을 가능하게 한다.
일회전 순전파로 실시간 편집이 가능하며 반복적 최적화가 필요 없다.
마스크를 통한 입력 데이터 누락 시나리오에서도 맥락을 존중하면서 장면을 일관되게 완성한다.
잠재 회귀를 통한 콜라지 기반 구성은 입력 보존과 출력 현실성 사이의 파레토 유사 트레이드오프를 보여주며 L1 재구성과 FID 현실성 간의 균형을 이룬다.
아키텍처 전반에 걸쳐 StyleGAN은 더 지역화된 변동성 제어를 보이고, ProGAN은 재구성-현실성 트레이드오프에서 다른 특성을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.