QUICK REVIEW

[논문 리뷰] Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

Jun-Yan Zhu, Taesung Park|arXiv (Cornell University)|2017. 03. 30.

Generative Adversarial Networks and Image Synthesis참고 문헌 65인용 수 2,309

한 줄 요약

CycleGAN은 페어링되지 않은 이미지 도메인 간의 매핑을 사이클 일관성을 가진 적대적 손실로 학습하여, Monet의 그림과 사진처럼 페어링된 데이터 없이도 도메인 간 번역을 가능하게 한다.

ABSTRACT

Image-to-image translation is a class of vision and graphics problems where the goal is to learn the mapping between an input image and an output image using a training set of aligned image pairs. However, for many tasks, paired training data will not be available. We present an approach for learning to translate an image from a source domain $X$ to a target domain $Y$ in the absence of paired examples. Our goal is to learn a mapping $G: X ightarrow Y$ such that the distribution of images from $G(X)$ is indistinguishable from the distribution $Y$ using an adversarial loss. Because this mapping is highly under-constrained, we couple it with an inverse mapping $F: Y ightarrow X$ and introduce a cycle consistency loss to push $F(G(X)) \approx X$ (and vice versa). Qualitative results are presented on several tasks where paired training data does not exist, including collection style transfer, object transfiguration, season transfer, photo enhancement, etc. Quantitative comparisons against several prior methods demonstrate the superiority of our approach.

연구 동기 및 목표

이미지-간 번역을 위한 페어링된 학습 데이터의 부족을 해결하기 위해 두 도메인 X와 Y 간의 매핑을 학습한다.
G: X->Y 와 F: Y->X 의 매핑이 F(G(X))≈X 와 G(F(Y))≈Y 가 되도록 사이클일관성을 강제한다.
적대적 손실을 활용해 변환된 이미지가 대상 도메인 분포와 정렬되도록 하되, 사이클 로스를 통해 구조를 유지한다.
수집 스타일 전이, 물체 재변환, 계절 전이, 사진 향상 등 다양한 작업에서의 다재다능성을 입증한다.

제안 방법

두 생성기 G:X->Y와 F:Y->X 및 해당 판별기 D_Y와 D_X를 사용한다.
G(X)가 Y와 구분되지 않도록, F(Y)가 X와 구분되지 않도록 적대적 손실을 적용한다.
||F(G(x)) - x||_1 과 ||G(F(y)) - y||_1 를 최소화하는 사이클일관성 손실 L_cyc를 도입한다.
전체 목적 함수 L = L_GAN(G,D_Y,X,Y) + L_GAN(F,D_X,Y,X) + λ L_cyc(G,F) 와 λ=10 을 결합한다.
생성기에 Johnson 등, 패치GAN 판별기, 인스턴스 정규화의 아키텍처 선택을 채택한다.
판별기를 학습시키기 위해 최소제곱 GAN 손실과 생성 이미지의 이력을 사용하여 학습을 안정화한다.

실험 결과

연구 질문

RQ1페어링된 예시 없이도 페어링되지 않은 이미지 모음을 서로 다른 도메인으로 번역하고 의미 있는 내용을 보존할 수 있는가?
RQ2사이클일관성이 제약이 많은 번역 문제를 충분히 규제하여 高품질의 현실적인 매핑을 생성할 수 있는가?
RQ3CycleGAN 번역은 감독 학습 기반 및 다른 비페어링 방법들과 다양한 작업 전반에서 어떻게 비교되는가?
RQ4적대적 손실과 사이클일관성 항이 번역 품질에 어떤 영향을 미치는가?

주요 결과

CycleGAN은 페어링되지 않은 데이터에서도 강력한 번역을 달성하며, 자주 페어링된 학습 없이도 감독된 pix2pix 품질에 근접한다.
지도 지도 없이도 지도 데이터에 근접하는 성능으로, 지도 없이도 도시 지도(map)와 항공 사진에서 256×256 해상도에서 사람 평가자를 실제/가짜로 속이기도 한다 (~26.8% 및 ~23.2%).
Cityscapes 작업에서 CycleGAN은 라벨-사진 및 사진-라벨 지표에서 여러 베이스라인을 능가했으며, 일부 약지도 기반 베이스라인에 근접하거나 이를 상회했다.
아블레이션 연구에서 GAN 손실이나 사이클일관성 손실 중 하나를 제거하면 성능이 저하되며, 전체 CycleGAN이 최상의 결과를 제공했다.
이 방법은 수집 스타일 전이, 물체 재변환, 계절 전이, 사진 향상 등 여러 응용 분야로 일반화된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.