Skip to main content
QUICK REVIEW

[논문 리뷰] One-Shot Unsupervised Cross Domain Translation

Sagie Benaim, Lior Wolf|arXiv (Cornell University)|2018. 06. 15.
Multimodal Machine Learning Applications참고 문헌 26인용 수 23
한 줄 요약

이 논문은 원본 도메인에서 단일 이미지와 타겟 도메인의 사전 훈련된 변동형 오토인코더(VAE)만을 사용하여 비지도 교차 도메인 이미지 번역을 수행하는 OST(One-Shot Translation) 방법을 제안한다. 공유된 특징을 유지하면서 클론된 VAE의 공유되지 않은 레이어들만 단일 소스 이미지에 적응시킴으로써, 전체 데이터셋으로 훈련된 기존 방법과 유사한 성능을 달성하며, 저샷 설정에서 뛰어난 일반화 능력을 입증한다.

ABSTRACT

Given a single image x from domain A and a set of images from domain B, our task is to generate the analogous of x in B. We argue that this task could be a key AI capability that underlines the ability of cognitive agents to act in the world and present empirical evidence that the existing unsupervised domain translation methods fail on this task. Our method follows a two step process. First, a variational autoencoder for domain B is trained. Then, given the new sample x, we create a variational autoencoder for domain A by adapting the layers that are close to the image in order to directly fit x, and only indirectly adapt the other layers. Our experiments indicate that the new method does as well, when trained on one sample x, as the existing domain transfer methods, when these enjoy a multitude of training samples from domain A. Our code is made publicly available at https://github.com/sagiebenaim/OneShotTranslation

연구 동기 및 목표

  • 원본 도메인에서 단일 샘플만 제공되는 상황에서 비지도 교차 도메인 번역 문제를 해결하기 위해, 이전 연구에서 간과된 케이스를 다루는 것.
  • 원본 도메인에서 여러 예시를 사전에 접하지 않은 채로도 인지 에이전트가 타겟 도메인에서 유사한 이미지를 생성할 수 있도록 하는 것.
  • 두 도메인 모두에서 대규모 훈련 세트가 필요로 하는 기존의 비지도 도메인 번역 모델의 한계를 극복하는 것.
  • 단일 소스 이미지에 과적합되지 않으면서 저샷 시나리오에서 잘 일반화되는 방법을 개발하는 것.
  • 사전 훈련(타겟 도메인에서) 후 한 번의 소스 이미지에서 미세조정하는 이중 단계 접근 방식이 전체 데이터셋 훈련과 동등한 성능을 낼 수 있음을 검증하는 것.

제안 방법

  • 먼저 대규모 도메인 B 이미지 세트에서 VAE를 훈련시어 도메인 B의 잠재 표현을 학습하고 샘플을 생성한다.
  • VAE를 복제하여 도메인 B용과 도메인 A의 단일 이미지 x용으로 분리된 두 개의 별도 오토인코더를 생성한다.
  • 두 오토인코더는 상단 인코더 레이어와 하단 디코더 레이어를 공유하여 특징 전이를 가능하게 하면서도 도메인 별 적응을 허용한다.
  • 재구성 손실을 두 도메인 모두에 적용하고, x와 그가 도메인 B로 번역된 후 다시 원래 도메인 A로 복원되는 일방향 순환 손실을 도입하여 일관성을 강제한다.
  • 소스 이미지 x로부터 온 기울기 값은 공유되지 않은 레이어들만을 통해 역전파되어 과적합을 방지하고 도메인 B에서 학습된 공유 특징을 유지한다.
  • 훈련 안정성과 일반화를 향상시키기 위해 도메인 B와 단일 소스 이미지 x 양쪽에 데이터 증강 기법을 적용한다.

실험 결과

연구 질문

  • RQ1원본 도메인에서 단일 이미지만을 사용할 때도 비지도 교차 도메인 이미지 번역을 효과적으로 수행할 수 있는가?
  • RQ2사전 훈련(타겟 도메인에서) 후 단일 소스 이미지에서 미세조정하는 이중 단계 방법이 저샷 설정에서 기존 방법보다 뛰어난 성능을 낼 수 있는가?
  • RQ3두 도메인 간의 공유 특징 학습이 단일 소스 이미지가 유일한 경우 과적합을 방지하는 데 기여하는가?
  • RQ4제안된 방법의 성능가 전체 데이터셋으로 훈련된 기존 방법과 유사한가?
  • RQ5최신 기술 대비 내용 유지 및 스타일 전이 측면에서 이 방법의 성능은 어떠한가?

주요 결과

  • OST는 전체 데이터셋으로 훈련된 모델과 유사한 시각적 유사도를 달성하며, Summer2Winter에서 0.64, Winter2Summer에서 0.73의 시각적 거리(perceptual distance)를 기록한다.
  • 사용자 연구에서 OST는 CycleGAN과 UNIT가 전체 데이터로 훈련된 성능을 따라잡거나 초월하며, Facades-to-Images 번역에서 91%의 사용자가 정확하다고 평가했다.
  • Monet-to-Photo 작업에서 OST는 단일 샘플로 훈련된 경우 시각적 거리 3.75를 기록하여 CycleGAN(3.53)과 UNIT(6.82)를 모두 능가했다.
  • Monet-to-Photo 작업에서 OST는 낮은 스타일 차이(1.20)를 유지하여 타겟 도메인과 강한 스타일 일치를 보였으며, 전체 데이터셋으로 훈련된 모델과 유사한 성능을 보였다.
  • Maps-to-Aerial-View 작업에서 OST는 사용자 연구에서 56%의 정확도를 기록하여, 단일 샘플로 훈련된 CycleGAN(45%)과 UNIT(37%)를 모두 능가했다.
  • OST는 Cityscapes-to-Labels와 Facades-to-Images와 같은 다양한 작업에서 뚜렷한 성능 향상을 보이며, 일시적 상황에서도 안정적인 성능을 유지하는 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.