[논문 리뷰] Swapping Autoencoder for Deep Image Manipulation
Swapping Autoencoder는 텍스처/구조 교환 및 잠재 공간 산술을 통해 현실적인 이미지 편집을 가능하게 하는 두 가지 disentangled latent code(구조와 질감)를 학습하며, 이전의 GAN 기반 방법보다 테스트-타임 임베딩이 더 빠릅니다.
Deep generative models have become increasingly effective at producing realistic images from randomly sampled seeds, but using such models for controllable manipulation of existing images remains challenging. We propose the Swapping Autoencoder, a deep model designed specifically for image manipulation, rather than random sampling. The key idea is to encode an image with two independent components and enforce that any swapped combination maps to a realistic image. In particular, we encourage the components to represent structure and texture, by enforcing one component to encode co-occurrent patch statistics across different parts of an image. As our method is trained with an encoder, finding the latent codes for a new input image becomes trivial, rather than cumbersome. As a result, it can be used to manipulate real input images in various ways, including texture swapping, local and global editing, and latent code vector arithmetic. Experiments on multiple datasets show that our model produces better results and is substantially more efficient compared to recent generative models.
연구 동기 및 목표
- 각 작업마다 재학습 없이 딥 생성 모델을 사용해 기존 이미지를 편집하는 과제를 다룬다.
- 하나의 코드가 구조를, 다른 하나가 질감을 포착하는 disentangled 잠재 공간을 학습하여 현실적인 스왑을 가능하게 한다.
- 실제 이미지를 빠르게 임베딩하고 전역/지역 편집, 질감 전이 및 잠재 산술 등을 지원하는 인코더–디코더 프레임워크를 제공한다.
제안 방법
- StyleGAN2 아키텍처를 기반으로 하는 인코더 E와 제너레이터 G를 사용하는 Swapping Autoencoder를 제안한다.
- 잠재 코드 z를 구조 코드 zs(공간 텐서)와 질감 코드 yt(전역 벡터)로 분할한다.
- 입력 재구성을 보장하기 위해 재구성 손실 Lrec로 학습한다.
- 현실적인 재구성 및 스왑된 하이브리드의 현실성을 보장하기 위해 GAN 손실 LGAN,rec를 사용하고, 한 이미지의 zs와 다른 이미지의 yt를 교환한 하이브리드의 현실성을 보장하기 위해 LGAN,swap를 사용한다.
- 교환된 출력의 패치들이 원천 텍스처 이미지의 패치들과 질감 통계를 공유하도록 패치 동시발생 식별자 Dpatch를 도입한다.
- 총 손실 Ltotal = Lrec + 0.5 LGAN,rec + 0.5 LGAN,swap + LCooccurGAN를 최적화한다.
- 특정 경우: 구조를 보존하기 위해 zs를 로컬로 유지하고, 전역 텍스처 일관성을 강제하는 yt를 유지하며, 고해상도 편집을 가능하게 하는 완전 합성 컨볼루션 파이프라인을 따른다.
실험 결과
연구 질문
- RQ1자율 학습 오토인코더가 코드 스와핑을 통해 현실적인 이미지 편집을 지원하는 구분 가능한 구조 코드와 질감 코드를 학습할 수 있는가?
- RQ2동시발생 패치 식별자가 질감 코드의 해석 가능성과 편집 가능성을 향상시키는가?
- RQ3테스트-타임 임베딩이 실용적인 이미지 조작 애플리케이션에 충분히 빠르고 정확한가?
- RQ4잠재 공간 조작(질감/구조 스왑 및 벡터 산술)이 다양한 데이터셋에서 어떻게 작동하는가?
- RQ5결과 임베딩 공간이 지역적/전역 편집 및 다중 도메인 변환에 적합한가?
주요 결과
- 모델은 구조 코드와 질감 코드를 교환하여 텍스처와 구조를 적절히 보존하면서 현실적인 이미지 하이브리드를 달성한다.
- 테스트-타임 임베딩은 최적화 기반 기법에 비해 현저히 빨라(약 1000배) 재구성과 LPIPS 재현성이 데이터셋 전반에서 경쟁력 있게 나타난다.
- 인간 지각 연구에서 Swapping Autoencoder가 Church, FFHQ, Waterfall 데이터셋에서 스왑 생성 이미지의 현실성에서 기준선을 능가함(AMT 속임수율: Church 31.3%, FFHQ 19.4%, Waterfall 41.8%, 평균 31.0%).
- 잠재 공간 연산은 질감과 구조 공간에서 벡터 산술을 통해 영역 기반 편집 및 도메인 변환을 포함한 매끄럽고 제어 가능한 편집을 제공한다.
- 이 방법은 평균 차이 벡터를 통한 다중 도메인 세밀 편집 및 연속 변환(예: 눈의 추가와 같은)도 지원한다.
- Im2StyleGAN, StyleGAN2, STROTSS, WCT 2에 비해 Swapping Autoencoder가 이미지 하이브리드의 지각적 현실감과 사용자 연구에서 스타일-내용 균형을 더 잘 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.