QUICK REVIEW

[논문 리뷰] Few-Shot Unsupervised Image-to-Image Translation

Ming-Yu Liu, Xun Huang|arXiv (Cornell University)|2019. 05. 05.

Generative Adversarial Networks and Image Synthesis참고 문헌 53인용 수 80

한 줄 요약

FUNIT을 도입하는 few-shot, 비지도 이미지-대-이미지 번역 프레임워크로, 테스트 시점에 타깃 클래스의 소수 예시만 사용하여 원천 클래스의 이미지를 보지 못한 타깃 클래스의 유사한 이미지로 번역한다.

ABSTRACT

Unsupervised image-to-image translation methods learn to map images in a given class to an analogous image in a different class, drawing on unstructured (non-registered) datasets of images. While remarkably successful, current methods require access to many images in both source and destination classes at training time. We argue this greatly limits their use. Drawing inspiration from the human capability of picking up the essence of a novel object from a small number of examples and generalizing from there, we seek a few-shot, unsupervised image-to-image translation algorithm that works on previously unseen target classes that are specified, at test time, only by a few example images. Our model achieves this few-shot generation capability by coupling an adversarial training scheme with a novel network design. Through extensive experimental validation and comparisons to several baseline methods on benchmark datasets, we verify the effectiveness of the proposed framework. Our implementation and datasets are available at https://github.com/NVlabs/FUNIT .

연구 동기 및 목표

자연스러운 이미지-대-이미지 번역에서 Few-shot 일반화를 동기부여하고 가능하게 한다.
테스트 시점에 타깃 클래스의 예시가 몇 개만 주어졌을 때, 콘텐츠 이미지를 보지 못한 타깃 클래스의 유사한 이미지로 번역하는 모델을 학습한다.
훈련 클래스의 다양성이 few-shot 번역 능력에 어떤 영향을 주는지 조사한다.
여러 데이터셋과 다양한 평가 지표에서 번역 품질과 분포 매칭을 보여준다.

제안 방법

콘텐츠 이미지 x와 K개의 타깃-클래스 이미지 집합 {y1,...,yK}을 입력으로 받는 조건부 제너레이터 G를 사용하여 변환된 이미지 x̄를 생성한다.
G를 콘텐츠 인코더 Ex, 클래스 인코더 Ey, AdaIN 잔차 블록이 있는 디코더 Fx로 분해한다.
Ey는 K개의 타깃-클래스 이미지의 잠재 표현을 평균내어 클래스 잠재 코드 zy를 계산한다.
디코더의 AdaIN은 zy를 주입하여 전역적 외관을 제어하고, Ex는 콘텐츠 구조를 유지한다.
소스 클래스당 하나의 출력이 있는 다중 작업 적대적 판별기 D를 학습시켜 소스 클래스로 조건화된 실제 이미지와 번역 이미지를 구분한다.
GAN 손실, 컨텐츠 재구성 손실 Lr 및 특징 매칭 손실 Lf를 포함하는 공동 목적함수를 최적화한다.

실험 결과

연구 질문

RQ1단일 번역 모델이 테스트 시점에 몇 개의 예시만 주어졌을 때 보지 못한 타깃 클래스에 일반화할 수 있는가?
RQ2훈련 중에 봤던 소스 클래스의 수를 늘리면 few-shot 번역 성능에 어떤 영향을 주는가?
RQ3타깃-클래스 샷 K의 수를 다르게 할 때 번역 품질과 분포 매칭에 어떤 영향이 있는가?
RQ4제안된 손실(GAN, 컨텐츠 재구성, 특징 매칭)이 few-shot 설정에서 성능에 의미 있게 기여하는가?
RQ5생성 이미지를 사용하여 새로운 클래스를 위한 추가 라벨링된 예제를 생성해 few-shot 분류에 프레임워크를 적용할 수 있는가?

주요 결과

FUNIT은 번역 정확도, 콘텐츠 보존, 사진실현도 및 분포 매칭에서 1–20 샷 설정 전반에서 베이스라인을 능가한다.
번역 정확도(테스트 분류기에서 Top-5)가 K가 1에서 15–20으로 증가함에 따라 Animal Faces의 경우 73.69–83.57%, Birds의 경우 49.01–55.63%에 도달한다.
평균 인셉션 점수와 FID는 K가 증가함에 따라 향상되어 사진실현도 및 분포 정렬이 더 잘 이루어진다.
훈련 중 더 많은 소스 클래스를 보면 unseen target classes에 대한 일반화가 향상된다.
사람 평가에서 FUNIT으로 생성된 출력물이 여러 샷 수준에서 타깃 클래스에 더 충실한 것으로 나타났다(공정/비공정 베이스라인 대비).
FUNIT은 novel 클래스에 대한 추가 라벨링 예제를 생성하여 few-shot 분류를 개선하는 데에도 사용될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.