QUICK REVIEW

[논문 리뷰] Cross-domain Correspondence Learning for Exemplar-based Image Translation

Pan Zhang, Bo Zhang|arXiv (Cornell University)|2020. 04. 12.

Generative Adversarial Networks and Image Synthesis참고 문헌 51인용 수 24

한 줄 요약

이 논문은 입력(예: 세그멘테이션 마스크, 에지 맵 등)을 중간 특징 공간에 정렬함으로써 도메인 간 상응성과 예시 기반 이미지 변환을 동시에 학습하는 약한 지도 학습 프레임워크인 CoCosNet을 제안한다. 예시 이미지의 의미적으로 정렬된 패치를 활용하여, 세밀한 스타일 일관성을 유지하면서 사진처럼 현실적인 출력을 생성하며, 이미지 품질과 의미적 충실도에서 기존 최고 성능(SOTA) 방법을 능가한다.

ABSTRACT

We present a general framework for exemplar-based image translation, which synthesizes a photo-realistic image from the input in a distinct domain (e.g., semantic segmentation mask, or edge map, or pose keypoints), given an exemplar image. The output has the style (e.g., color, texture) in consistency with the semantically corresponding objects in the exemplar. We propose to jointly learn the crossdomain correspondence and the image translation, where both tasks facilitate each other and thus can be learned with weak supervision. The images from distinct domains are first aligned to an intermediate domain where dense correspondence is established. Then, the network synthesizes images based on the appearance of semantically corresponding patches in the exemplar. We demonstrate the effectiveness of our approach in several image translation tasks. Our method is superior to state-of-the-art methods in terms of image quality significantly, with the image style faithful to the exemplar with semantic consistency. Moreover, we show the utility of our method for several applications

연구 동기 및 목표

정확한 상응성 애너테이션 없이도 서로 다른 도메인(예: 세그멘테이션 마스크에서 사진으로)의 이미지 간에 밀도 높고 의미적인 도메인 간 상응성을 학습하는 데 도전한다.
예시 이미지의 공간적으로 인식 가능한 외관 전달 기반으로 개체 수준의 스타일 충실도를 달성하는 예시 기반 이미지 변환을 가능하게 한다.
전역 스타일 벡터에 의존하지 않아 지역 텍스처 세부 정보를 잃는 문제를 피하기 위해, 약한 지도 하에서 상응성과 변환을 동시에 최적화하는 통합 프레임워크를 개발한다.
암묵적으로 학습된 밀도 높은 상응성을 바탕으로 의미적 이미지 편집 및 메이크업 전이와 같은 새로운 애플리케이션을 가능하게 한다.
기존 방법이 전역 스타일 코드나 작업 전용 설계를 사용하는 데서 비롯하는 한계를 극복하기 위해, 일반 목적의 엔드 투 엔드 학습 가능한 솔루션을 도입한다.

제안 방법

공동 지도 학습을 통해 엔드 투 엔드로 훈련되는 두 개의 스트림 네트워크 아키텍처를 도입: 도메인 간 상응성 네트워크와 변환 네트워크.
원본 도메인(세그멘테이션, 에지, 자세 등)에서 온 입력 이미지와 예시 이미지를, 상응성 관계를 신뢰성 있게 설정할 수 있는 공통의 중간 특징 공간으로 매핑한다.
학습된 의미적 상응성에 기반해 예시 이미지를 왜곡함으로써 출력 이미지를 합성하기 위해 변환 네트워크에 공간적으로 변화하는 정규화 해제 블록을 사용한다.
훈련 안정성과 정렬 향상을 위해 도메인 정렬 손실($\mathcal{L}_{\text{domain}}^{\ell_1}$), 특징 재구성 손실($\mathcal{L}_{\text{feat}}$), 지각 손실($\mathcal{L}_{\text{perc}}$), 맥락 손실($\mathcal{L}_{\text{context}}$), 상응성 정규화 손실($\mathcal{L}_{\text{reg}}$)으로 구성된 다중 성분 손실 함수를 적용한다.
각 작업이 서로를 향상시키는 방식으로 상응성과 변환을 동시에 훈련함으로써 약한 지도 학습을 활용한다. 이는 정답 상응성 또는 합성 타겟이 필요 없이도 가능하다.
학습된 밀도 높은 특징을 통해 희박한 상응성 예측을 가능하게 하여, 에지 맵이나 관절점 히트맵과 같은 정보가 적은 도메인으로의 일반화를 가능하게 한다.

실험 결과

연구 질문

RQ1정답 상응성이 전혀 없는 약한 지도 학습 환경에서 밀도 높은 도메인 간 상응성을 효과적으로 학습할 수 있는가?
RQ2상응성과 이미지 변환을 함께 학습하는 것이 별도 훈련에 비해 예시 기반 이미지 합성의 품질과 의미적 일관성에 개선을 이끌 수 있는가?
RQ3암묵적으로 학습된 상응성이 의미적 이미지 편집 및 메이크업 전이와 같은 실용적 응용을 가능하게 하는가?
RQ4개별 손실 성분이 상응성 및 변환 작업에서 모델의 강건성과 성능에 기여하는 방식은 무엇인가?
RQ5전역 스타일 인코딩 방법에 비해, 이 방법은 개체 수준에서 예시 이미지의 세밀한 텍스처 및 색상 세부 정보를 얼마나 잘 유지하는가?

주요 결과

전체 CoCosNet 모델은 동일한 평가 프rotocol 하에서 FID(프리셰트 인ception 거리) 14.3을 기록하며, 이는 다음으로 우수한 방법(21.1)을 크게 능가하는 이미지 품질을 의미한다.
모델은 의미적 일관성 점수 0.949와 스타일 관련성 점수 0.977(색상) / 0.958(텍스처)를 달성하여 전반적이고 국소적인 수준에서 예시의 외관에 높은 충실도를 보였다.
제거 실험 결과, 도메인 정렬 손실($\mathcal{L}_{\text{domain}}^{\ell_1}$)을 제거할 경우 왜곡이 과도하게 부드럽게 되고 상응성 학습이 실패함을 확인하여, 이 손실의 핵심적 역할을 입증했다.
상응성 정규화 손실($\mathcal{L}_{\text{reg}}$)은 잘못된 정렬(예: 얼굴에서 머리카락으로의 정렬)을 방지하는 데 필수적이며, 이 손실이 없을 경우 의미적으로 타당하지 않은 왜곡이 발생함에도 불구하고 합리적으로 보이는 출력이 생성됨을 확인했다.
사용자 연구 결과, CoCosNet은 이미지 품질에서 84.2%의 경우 1위를 기록했고, 스타일 관련성에서는 93.8%의 경우 1위를 기록하여 강력한 시각적 우수성을 확인했다.
에지 맵과 같이 정보가 적은 입력이라도 의미 있는 도메인 간 상응성을 성공적으로 설정하여, 낮은 의미적 내용을 가진 도메인에 대한 강건성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.