Skip to main content
QUICK REVIEW

[논문 리뷰] Image-to-image translation for cross-domain disentanglement

Abel González-García, Joost van de Weijer|arXiv (Cornell University)|2018. 05. 24.
Generative Adversarial Networks and Image Synthesis참고 문헌 44인용 수 87
한 줄 요약

본 논문은 이미지 표현에서 공유된 요인과 도메인 전용 요인을 구분하는 도메인 간 해상분리를 도입하여, 레이블 없이도 양방향 다중 모드 이미지 번역 및 교차 도메인 검색을 가능하게 하며, 도전적인 데이터셋에서 최첨단 baselines 대비 향상을 보였습니다.

ABSTRACT

Deep image translation methods have recently shown excellent results, outputting high-quality images covering multiple modes of the data distribution. There has also been increased interest in disentangling the internal representations learned by deep methods to further improve their performance and achieve a finer control. In this paper, we bridge these two objectives and introduce the concept of cross-domain disentanglement. We aim to separate the internal representation into three parts. The shared part contains information for both domains. The exclusive parts, on the other hand, contain only factors of variation that are particular to each domain. We achieve this through bidirectional image translation based on Generative Adversarial Networks and cross-domain autoencoders, a novel network component. Our model offers multiple advantages. We can output diverse samples covering multiple modes of the distributions of both domains, perform domain-specific image transfer and interpolation, and cross-domain retrieval without the need of labeled data, only paired images. We compare our model to the state-of-the-art in multi-modal image translation and achieve better results for translation on challenging datasets as well as for cross-domain retrieval on realistic datasets.

연구 동기 및 목표

  • 도메인 공유 요인과 도메인 전용 요인을 분리하기 위해 잠재 표현의 해상분리를 동기화한다.
  • 두 도메인에 대해 공유 S와 전용 E 부분(X 전용 E^X, Y 전용 E^Y)을 포함하는 양방향 이미지 번역 프레임워크를 개발한다.
  • 크로스 도메인 오토인코더와 GRL 기반 제약을 통해 다양하고 다중 모드 번역 및 교차 도메인 검색을 가능하게 한다.
  • 레이블 데이터 없이도 해석된 표현이 도메인 특화 전이, 보간 및 시각적 유추를 지원함을 보인다.
  • MNIST 변형 및 보다 복잡한 데이터셋에서 기존의 최첨단 다중 모드 번역 방법에 비해 우위를 보인다.

제안 방법

  • 각 도메인에 대해 공유 S와 전용 E 부분(X 전용 E^X, Y 전용 E^Y) 및 도메인 불변인 공유 구성요소 S^{X} / S^{Y}를 분할한다.
  • (S,E)에서 작동하는 인코더/디코더를 가진 양방향 GAN 기반 번역기 G와 F를 사용하되, 전용 부분은 단지 S와 임의 잡음 z로 이미지를 생성한다.
  • 대상 도메인에서 전용 피처로부터 재구성하려는 작은 디코더에 대해 GRL(Gradient Reversal Layer)을 적용하여 도메인 특이적 누수를 억제한다.
  • _COLLAPSING_을 피하기 위해 도메인 간 공유 표현의 유사성을 L1 손실과 제어된 노이즈로 강제( S^X ≈ S^Y, 무의미한 해를 방지하기 위해 노이즈 주입).
  • 같은 도메인의 공유 구성요소와 교차 도메인 전용 구성요소의 혼합으로 입력을 재구성하여 잠재 공간을 정렬하는 크로스 도메인 오토인코더를 도입한다.
  • 안정성을 위한 WGAN-GP 손실과 번역 간 교차 도메인 일관성을 유지하는 재구성 기반 오토인코더 손실로 학습한다.

실험 결과

연구 질문

  • RQ1세 가지 부분 잠재 표현(공유, X-전용, Y-전용)이 도메인 변이 요인을 해리하면서도 도메인 간 번역을 가능하게 하는가?
  • RQ2크로스 도메인 오토인코딩 및 GRL 기반 제약이 라벨 없는 상태에서 다중 모드 번역 및 교차 도메인 검색을 향상시키는가?
  • RQ3제안된 표현이 두 도메인 간 샘플 다양성, 도메인 특화 전이 및 보간을 어떻게 지원하는가?
  • RQ4쌍으로 주어진 데이터만으로 효과적인 교차 도메인 검색 및 시각적 유추를 달성할 수 있는가?
  • RQ5교차 도메인 오토인코더, GRL, 공유 피처에 대한 L1 일치를 제거하면 필요한가?

주요 결과

  • 전용 잡음 z를 변화시키면서 공유 부분을 고정해 다양한 다중 모드 번역이 가능하다.
  • 공유 피처를 이용한 크로스 도메인 검색은 높은 Recall@1을 달성하며 픽셀 기반 기준선보다 우수하고 레이블 없이도 학습을 가능하게 한다.
  • 공유 및 전용 구성요소를 조작하여 시각적 유추 및 도메인 특이적 보간이 가능하며 보통 명시적 감독 없이도 달성된다.
  • 아블레이션 결과는 크로스 도메인 오토인코더와 GRL이 해상분해 및 번역 품질에 크게 기여함을 시사하며 이를 제거하면 성능이 저하된다.
  • 이 방법은 현실적인 데이터셋(지도/위성, 파사드/지도)에도 확장되며 양방향 번역에서 자동차 및 의자 데이터셋에 대한 LPIPS 점수에서 경쟁력 있는 성능을 보인다.
  • BicycleGAN 및 pix2pix baselines와 비교할 때 제안된 접근법이 인지적 품질과 모드 다양성을 더 잘 제공하는 경향이 있으며 특히 구조적 변화가 큰 경우에 더 두드러진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.