QUICK REVIEW

[논문 리뷰] Contrastive Learning for Unpaired Image-to-Image Translation

Taesung Park, Alexei A. Efros|arXiv (Cornell University)|2020. 07. 30.

Generative Adversarial Networks and Image Synthesis참고 문헌 89인용 수 126

한 줄 요약

논문은 단측 비쌍 이미지-투-이미지 번역 방법(CUT)을 도입하여 입력 패치와 출력 패치 간의 상호정보를 다층 패치별 대조 손실(PatchNCE)을 사용해 극대화하고, 사이클-일관성또는 역 매핑 없이도 고품질 번역을 가능하게 한다.

ABSTRACT

In image-to-image translation, each patch in the output should reflect the content of the corresponding patch in the input, independent of domain. We propose a straightforward method for doing so -- maximizing mutual information between the two, using a framework based on contrastive learning. The method encourages two elements (corresponding patches) to map to a similar point in a learned feature space, relative to other elements (other patches) in the dataset, referred to as negatives. We explore several critical design choices for making contrastive learning effective in the image synthesis setting. Notably, we use a multilayer, patch-based approach, rather than operate on entire images. Furthermore, we draw negatives from within the input image itself, rather than from the rest of the dataset. We demonstrate that our framework enables one-sided translation in the unpaired image-to-image translation setting, while improving quality and reducing training time. In addition, our method can even be extended to the training setting where each "domain" is only a single image.

연구 동기 및 목표

사이클-일관성이나 bijections에 의존하지 않고 도메인 간 콘텐츠 보존을 유도한다.
상응하는 입력-출력 패치 간의 상호 정보(mutual information)를 극대화하는 대조 학습 목표를 제안한다.
내부(같은 이미지 내) 음수 샘플이 콘텐츠 보존 신호를 더 강하게 만들어낸다는 것을 보인다.
가볍고 단측 번역 파이프라인(CUT)을 개발하여 심지어 단일 이미지 쌍에서도 작동할 수 있다.

제안 방법

인코더 G_enc와 디코더 G_dec를 사용하여 두 부분으로 구성된 생성기(제너레이터)를 형성한다.
다층 패치별 InfoNCE 손실(PatchNCE)을 적용하여 다수의 인코더 계층에 걸쳐 대응하는 입력-출력 패치를 정렬한다.
같은 입력 이미지로부터 음수 샘플을 추출(내부 음수)하여 InfoNCE 손실의 온도 τ를 사용하는 (N+1) 분류로 구성한다.
선택적으로 이동평균 인코더를 사용하는 외부 음수 샘플링 변형(external NCE)을 포함할 수 있지만 내부 음수가 최상의 성능을 보인다.
도메인 현실성 및 콘텐츠 보존을 강제하기 위해 사이클-일관성을 GAN 손실과 PatchNCE 손실을 입력에 적용(및 필요시 출력에도 적용)로 대체한다.
성능을 유지하면서 아이덴티티 보존 항을 생략하고 학습을 단순화하여 더 빠른 변형(FastCUT)을 제공한다.

실험 결과

연구 질문

RQ1상응하는 입력 패치와 출력 패치 간의 상호 정보를 최대화하는 것이 사이클-일관성 없이도 콘텐츠 보존이 가능한 번역을 촉진하는가?
RQ2내부(이미지 내) 음수는 교차 도메인 패치 대응 학습에 있어 외부 음수보다 더 효과적인가?
RQ3다층 패치별 대조 학습 목표가 비쌍 번역에서 전통적인 사이클-일관성 기반 방법과 비교하여 어떤 차이를 보이는가?
RQ4PatchNCE를 사용하여 한 도메인당 단일 이미지에서 비쌍 번역을 효과적으로 학습할 수 있는가(원샷/단일 이미지 번역)?
RQ5CUT와 더 빠른 변형 FastCUT 간의 학습 시간, 메모리 및 품질의 trade-off는 무엇인가?

주요 결과

제안된 PatchNCE 기반 손실이 Horse→Zebra, Cityscapes와 같은 데이터 세트에서 CycleGAN, MUNIT, DRIT, DistanceGAN, GcGAN 등 여러 기준선보다 더 높은 품질의 번역을 산출한다.
입력 이미지에서 얻은 내부 음수가 외부 음수(다른 이미지 혹은 메모리 뱅크에서 얻은 음수)보다 콘텐츠 보존 신호를 더 우수하게 만든다.
여러 인코더 계층을 사용한 패치 수준 대조 학습은 마지막 계층만 사용하는 것보다 콘텐츠 보존 및 번역 품질을 개선한다.
출력 도메인(Y)에서 PatchNCE를 이용한 아이덴티티 정규화 변형은 학습의 안정성을 제공하고 붕괴 위험을 감소시킨다.
CUT는 CycleGAN에 비해 더 빠른 학습 및 낮은 메모리 사용을 달성하며 FID 및 의미적 대응 지표가 비슷하거나 우수하며; FastCUT은 더 낮은 계산 비용으로 유사한 결과를 제공한다.
이 방법은 단일 이미지 번역 작업(SinCUT)으로 확장되어 도메인당 한 예시만으로도 고해상도 그림-사진 스타일 전환이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.