[논문 리뷰] Spatially Controllable Image Synthesis with Internal Representation Collaging
이 논문은 사전 훈련된 GAN에서 중간 특징 표현을 조작함으로써 공간적으로 제어 가능한 의미적 편집을 가능하게 하는 새로운 CNN 기반 이미지 편집 방법을 제안한다. 공간 조건부 배치 정규화(sCBN)와 특징 블렌딩을 사용하여 사용자는 레이블 맵이나 특징 전이를 통해 특정 이미지 영역을 편집할 수 있으며, 재훈련 없이도 합성 이미지와 실제 이미지 모두에서 고해상도이고 국소적인 편집을 달성한다.
We present a novel CNN-based image editing strategy that allows the user to change the semantic information of an image over an arbitrary region by manipulating the feature-space representation of the image in a trained GAN model. We will present two variants of our strategy: (1) spatial conditional batch normalization (sCBN), a type of conditional batch normalization with user-specifiable spatial weight maps, and (2) feature-blending, a method of directly modifying the intermediate features. Our methods can be used to edit both artificial image and real image, and they both can be used together with any GAN with conditional normalization layers. We will demonstrate the power of our method through experiments on various types of GANs trained on different datasets. Code will be available at https://github.com/pfnet-research/neural-collage.
연구 동기 및 목표
- 재훈련 없이 사전 훈련된 GAN에서 이미지의 미세한 공간적 국소화된 의미적 편집을 가능하게 하기 위해.
- 기존 GAN 편집 방법이 공간적 제어 기능이 부족하거나 명시적인 특징 정의가 필요로 하는 한계를 해결하기 위해.
- AdaIN 또는 CBN 레이어를 사용하는 모든 GAN과 호환되는 즉시 사용 가능한 솔루션을 제공하기 위해.
- 잠재 공간에 대한 다양체 투영과 특징 공간 조작을 결합하여 실제 이미지의 편집을 가능하게 하기 위해.
- 사용자가 지정한 공간 맵 또는 소스 영역을 통해 직관적인 방식으로 사진 수준의 정교한 다중 영역 편집을 구현하기 위해.
제안 방법
- 사용자가 정의한 공간적 가중치 맵을 특징 변환을 조절하는 데 적용하는 공간 조건부 배치 정규화(sCBN)를 도입하며, 이는 조건부 배치 정규화의 공간적 확장이다.
- 다중 소스 이미지의 중간 특징 맵을 공간적으로 정의된 블렌딩 비율에 따라 직접 혼합하는 특징 블렌딩 기법을 활용한다.
- sCBN와 특징 블렌딩을 동시에 적용하여 단일 추론 단계 내에서 복잡한 다중 영역 의미적 편집을 가능하게 한다.
- 실제 이미지를 사전 훈련된 GAN의 잠재 공간으로 매핑하기 위해 다양체 투영을 적용하여 특징 공간 조작을 통한 실제 이미지 편집을 가능하게 한다.
- 추가 훈련이나 감독 없이도 훈련된 GAN의 내부 특징 표현을 활용하여 편집을 수행한다.
- 특히 AdaIN 또는 CBN 레이어를 사용하는 아키텍처에 의존하므로, 다양한 GAN 아키텍처에 널리 적용 가능하다.
실험 결과
연구 질문
- RQ1사전 훈련된 모델의 내부 특징 표현만을 사용하여 GAN 생성 이미지에서 정밀하고 국소적인 의미적 편집을 달성할 수 있는가?
- RQ2공간적으로 변화하는 조건부 정규화는 단일 이미지 내에서 다중 클래스, 다중 영역 의미적 편집을 가능하게 하는가?
- RQ3명시적인 애너테이션 없이도 직접적인 특징 공간 혼합을 통해 복잡한 비클래스 특정 특징(예: 얼굴 표정)을 전이할 수 있는가?
- RQ4실제 이미지에서 품질과 현실성 측면에서 기존의 GAN 기반 이미지 번역 모델과 비교해 본 결과, 본 방법의 성능은 어떠한가?
- RQ5재훈련 없이 다양한 데이터셋과 GAN 아키텍처 간에 본 방법이 얼마나 일반화되는가?
주요 결과
- 고양이에서 큰 고양이로의 번역 작업에서 본 방법은 ImageNet 실제 이미지에서 상위 5개 오류율 7.8%를 기록하여 UNIT(14.8%)와 MUNIT(26.0%)를 초월했다.
- 고양이에서 강아지로의 번역 작업에서 본 방법은 상위 5개 오류율 21.1%를 기록하였으며, MUNIT의 55.4%와 비교해 유의미하게 낮았다. UNIT의 경우 메서드적 제약로 인해 N/A였다.
- 아마존 Mechanical Turk를 통한 인간 평가 결과, 고양이에서 큰 고양이로의 번역에서 83.9%의 참가자가 본 방법의 결과를 UNIT보다 선호했으며, 강아지에서 강아지로의 번역에서는 87.0%가 본 방법의 결과를 선호했다.
- 인간의 시각적 평가에서 본 방법은 모든 테스트 번역 쌍에서 MUNIT 및 UNIT보다 더 사진 수준의 현실감 있는 결과로 평가되었으며, 우도 기준(50%)을 크게 상회하는 선호도를 기록했다.
- sCBN와 특징 블렌딩의 조합은 그림 2에서 보여주듯이 개의 품종과 얼굴 표정을 동시에 변경하는 복잡한 편집을 가능하게 하였다.
- 본 방법은 100개 이상의 클래스를 넘는 다대다 번역을 성공적으로 수행하여 단순 도메인 간 번역을 넘어서 스케일링 및 일반화 능력을 입증하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.