QUICK REVIEW

[논문 리뷰] Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space Navigation

Peiye Zhuang, Oluwasanmi Koyejo|arXiv (Cornell University)|2021. 02. 01.

Generative Adversarial Networks and Image Synthesis참고 문헌 36인용 수 26

한 줄 요약

본 논문은 결합 회귀기(joint regressor), 다중 변환 방향, 그리고 항등성과 사실감을 보존하기 위한 결합 손실을 활용한 잠재 공간 편집 프레임워크를 제안하여, 선행 연구에 비해 해지된 얽힘과 제어 가능성 측면에서 향상된 성능을 보이는 컨트롤 가능한 의미론적 이미지 편집을 달성한다.

ABSTRACT

Controllable semantic image editing enables a user to change entire image attributes with a few clicks, e.g., gradually making a summer scene look like it was taken in winter. Classic approaches for this task use a Generative Adversarial Net (GAN) to learn a latent space and suitable latent-space transformations. However, current approaches often suffer from attribute edits that are entangled, global image identity changes, and diminished photo-realism. To address these concerns, we learn multiple attribute transformations simultaneously, integrate attribute regression into the training of transformation functions, and apply a content loss and an adversarial loss that encourages the maintenance of image identity and photo-realism. We propose quantitative evaluation strategies for measuring controllable editing performance, unlike prior work, which primarily focuses on qualitative evaluation. Our model permits better control for both single- and multiple-attribute editing while preserving image identity and realism during transformation. We provide empirical results for both natural and synthetic images, highlighting that our model achieves state-of-the-art performance for targeted image manipulation.

연구 동기 및 목표

이미지 아이덴티티를 보존하면서 연속적이고 다중 속성의 의미론적 편집을 가능하게 한다.
GAN 잠재 공간에서 속성 변환의 얽힘을 지도 학습으로 분리한다.
편집 품질을 향상시키기 위해 글로벌 및 로컬 잠재 공간 변환 전략을 개발한다.
제어 가능성과 이미지 항등성 보존을 평가하는 정량적 지표를 도입한다.

제안 방법

생성기 G와 판별기 D가 고정된 GAN을 사용하고 속성에 대해 사전에 학습된 회귀기 R을 추가로 사용한다.
N개의 속성을 편집하는 잠재 공간 방향 벡터 T를 학습하고 변환 정도 벡터 ε를 통해 편집한다.
잠재 코드를 편집하기 위해 z' = z + T ε를 정의하고 G(z)와 G(z')를 합성한다.
G, D, R를 고정한 채 T를 학습시키기 위해 가중 손실 L = λ1 L_reg + λ2 L_disc + λ3 L_content를 최소화한다.
L_reg은 편집 후 예측된 속성과 목표 속성 간의 이진 교차 엔트로피를 사용한다.
L_disc는 편집된 이미지의 사실성을 보장하기 위해 판별자 기반 손실을 사용한다.
L_content(지각 손실)는 원본 이미지와 편집된 이미지 간의 특징을 일치시켜 이미지 항등성을 보존한다.
신경망이나 MLP로 구현된 글로벌(모든 z에 고정) 및 로컬(z 의존) 변환 T를 탐색한다.
StyleGAN2/PGGAN 백본을 사용한 자연 풍경 및 얼굴 데이터셋에서 학습하고 평가한다.

실험 결과

연구 질문

RQ1잠재 공간 방향을 학습하여 다중 속성을 제어 가능하게 편집하되 속성 간 얽힘이나 항등성 손상을 초래하지 않는가?
RQ2회귀기와 지각적(perceptual) 및 적대적 손실을 통합하는 것이 기존의 잠재 공간 편집 방법에 비해 더 우수한 해체성과 현실감을 제공하는가?
RQ3로컬(z-의존) 변환이 강인한 다중 속성 편집에 대해 글로벌 방향보다 우수한가?
RQ4의미론적 이미지 편집에서 제어 가능성과 항등성 보존을 평가하기 위한 정량적 지표를 어떻게 설계할 수 있는가?

주요 결과

제안된 모델은 단일 속성 및 다중 속성 편집 모두에서 기준선 대비 제어 가능성과 항등성 보존을 개선한다.
회귀기, 콘텐츠 손실 및 적대적 손실과의 결합 학습은 GAN 잠재 공간에서 속성 변환의 얽힘을 분리하는 데 도움을 준다.
로컬 변환은 글로벌보다 우수할 수 있으며 데이터 의존적 편집 방향을 제공하여 얽힘을 줄인다.
이 방법은 자연 풍경과 얼굴 모두에서 사진과 같은 사실성을 보존하며 연속적인 속성 편집을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.