QUICK REVIEW

[논문 리뷰] InGAN: Capturing and Remapping the "DNA" of a Natural Image

Assaf Shocher, Shai Bagon|arXiv (Cornell University)|2018. 12. 01.

Generative Adversarial Networks and Image Synthesis참고 문헌 29인용 수 32

한 줄 요약

InGAN은 단일 자연 이미지의 내부 패치 분포—'유전자'로 볼 수 있는 것—을 학습하고 이를 바탕으로 크기, 형태, 종횡비가 임의로 변형된 새로운 이미지를 생성하는 새로운 비지도 이미지 특정 GAN을 제안한다. 이 방법은 국소적인 구조, 스케일, 요소 간 상대적 위치를 유지하면서도, 다중 척도 판별기와 재구성 손실을 통해 단일 패assing 방식으로 다양한 출력, 비직사각형 형태까지도 가능하게 한다.

ABSTRACT

Generative Adversarial Networks (GANs) typically learn a distribution of images in a large image dataset, and are then able to generate new images from this distribution. However, each natural image has its own internal statistics, captured by its unique distribution of patches. In this paper we propose an "Internal GAN" (InGAN) - an image-specific GAN - which trains on a single input image and learns its internal distribution of patches. It is then able to synthesize a plethora of new natural images of significantly different sizes, shapes and aspect-ratios - all with the same internal patch-distribution (same "DNA") as the input image. In particular, despite large changes in global size/shape of the image, all elements inside the image maintain their local size/shape. InGAN is fully unsupervised, requiring no additional data other than the input image itself. Once trained on the input image, it can remap the input to any size or shape in a single feedforward pass, while preserving the same internal patch distribution. InGAN provides a unified framework for a variety of tasks, bridging the gap between textures and natural images.

연구 동기 및 목표

극도로 크기, 형태, 종횡비가 변화하는 상황에서도 국소 이미지 구조를 유지하는 데 도전하는 문제를 해결하기 위해.
외부 데이터가 전혀 필요 없이 단일 입력 이미지의 내부 통계에만 의존하는 완전한 비지도 방법을 개발하기 위해.
다중 척도에서 패치 분포를 모델링하여 텍스처 및 자연 이미지 조작을 하나의 프레임워크로 통합하기 위해.
입력 이미지의 내부 '유전자'를 동일하게 유지하면서도, 동일한 내부 '유전자'를 가진 다양한 목표 이미지를 단일 피드포워드 방식으로 신속하게 생성하기 위해, 각 목표마다 반복 최적화를 거치지 않도록 하기 위해.

제안 방법

InGAN은 기하학적 변환 T를 사용하여 입력 이미지를 크기/형태가 임의인 목표 이미지로 매핑하는 생성자(generator)를 훈련시켜, 입력 이미지의 내부 패치 분포를 유지한다.
실제 패치(입력 이미지로부터)와 생성된 이미지의 가짜 패치를 구분하기 위해 다중 척도 판별기(multiscale discriminator)를 사용하여, 다양한 척도에서 분포 일치를 강제한다.
encoder-encoder 생성기 아키텍처와 ℓ₁ 재구성 손실을 통해 생성자가 출력에서 입력을 재구성할 수 있도록 하여, 훈련의 안정성과 완전성을 향상시킨다.
역행성 기하학적 변환(예: 호모지어티)을 사용하여 비직사각형 출력으로의 리타겟팅을 가능하게 하며, 국소적 형태와 기울기를 유지한다.
생성자는 적대적 손실, 재구성 손실, 분포 일치 목표를 동시에 사용하여 엔드 투 엔드로 훈련되며, 이로써 국소적 및 전반적인 이미지 구조를 유지한다.
이 프레임워크는 완전히 비지도이다: 레이블, 쌍화된 데이터, 외부 데이터셋이 전혀 필요 없으며, 오직 입력 이미지 자체만으로도 작동한다.

실험 결과

연구 질문

RQ1단일 이미지에서 내부 패치 분포를 모델링하고, 동일한 통계적 성질을 가진 새로운 이미지를 생성하기 위해 GAN을 훈련시킬 수 있는가?
RQ2전체 크기나 종횡비가 극적으로 변화하더라도 국소적 구조가 왜곡되지 않도록 이미지 리타겟팅을 어떻게 달성할 수 있는가?
RQ3한 번의 피드포워드 단계로, 동일한 내부 '유전자'를 가진 다양한 크기나 형태의 목표 이미지를 단일 훈련 모델이 생성할 수 있는가?
RQ4단일 입력에서 이미지를 생성할 때, 미세한 세부 사항과 대규모 구조를 어느 정도 유지할 수 있는가?
RQ5비직사각형 출력 형태를 지원하면서도, 시각적 일관성과 국소적 구조를 유지할 수 있는가?

주요 결과

InGAN은 단일 입력 이미지에서 크기, 형태, 종횡비가 매우 다른 새로운 이미지를 성공적으로 생성하였으며, 원본 패치 분포와 국소적 요소의 구조를 모두 유지하였다.
제거 실험(ablation study) 결과, 다중 척도 판별기와 재구성 손실이 모두 핵심 요소임을 확인하였다: 둘 중 하나를 생략하면 구조 붕괴 또는 일관성 상실이 발생한다.
InGAN은 역행성 기하학적 변환을 통해 비직사각형 형태로의 리타겟팅을 가능하게 하였으며, 3D 재구성 없이도 3D 파라락스 효과를 유도한다.
세이밍 카빙과 이중 유사도와 비교해 볼 때, InGAN은 큰 구조의 왜곡을 피하고 각 목표마다 새로운 최적화 문제를 풀 필요가 없다.
성공에도 불구하고, InGAN은 패치 통계만 모델링할 뿐 객체 수준의 의미를 고려하지 않기 때문에 의미적으로 잘못된 출력을 생성할 수 있다.
질적 비교와 제거 실험을 통해 검증된 바와 같이, 이 방법은 생성된 이미지에서 높은 시각적 일관성과 완전성을 달성하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.