Skip to main content
QUICK REVIEW

[논문 리뷰] U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation

Junho Kim, Minjae Kim|arXiv (Cornell University)|2019. 07. 25.
Generative Adversarial Networks and Image Synthesis참고 문헌 42인용 수 300
한 줄 요약

비지도 이미지-대-이미지 변환 모델을 도입하고 새로운 어텐션 모듈과 AdaLIN 정규화를 통해 아키텍처나 하이퍼 파라미터를 바꾸지 않고 형태(shape)와 질감(texture) 변경 변환을 가능하게 한다.

ABSTRACT

We propose a novel method for unsupervised image-to-image translation, which incorporates a new attention module and a new learnable normalization function in an end-to-end manner. The attention module guides our model to focus on more important regions distinguishing between source and target domains based on the attention map obtained by the auxiliary classifier. Unlike previous attention-based method which cannot handle the geometric changes between domains, our model can translate both images requiring holistic changes and images requiring large shape changes. Moreover, our new AdaLIN (Adaptive Layer-Instance Normalization) function helps our attention-guided model to flexibly control the amount of change in shape and texture by learned parameters depending on datasets. Experimental results show the superiority of the proposed method compared to the existing state-of-the-art models with a fixed network architecture and hyper-parameters. Our code and datasets are available at https://github.com/taki0112/UGATIT or https://github.com/znxlwm/UGATIT-pytorch.

연구 동기 및 목표

  • 강건한 비지도 이미지-대-이미지 변환을 목표로 하여 데이터셋별 조정 없이도 전체 형상 변화와 질감/스타일 변화 모두를 다룬다.
  • 생성 및 판별을 도메인-디스크리미네이티브 영역에 기반하여 안내하는 어텐션 메커니즘을 도입한다.
  • AdaLIN을 개발하여 인스턴스 정규화와 계층 정규화의 균형을 학습 가능하게 만들고 데이터셋 특성에 맞게 адаптив하게 조정한다.
  • 다양한 데이터셋에서 번역 품질의 향상을 보여주고 디자인 선택의 타당성을 뒷받침하는 애블레이션을 제공한다.

제안 방법

  • 보조 분류기를 이용한 공유 어텐션 모듈로 가이드되는 두 제네레이터-두 디스크리미네이터 프레임워크를 제안한다.
  • 제네레이터에서 CAM에서 영감받은 가중치를 통해 인코더 특징으로부터 어텐션 맵 a_s(x)를 계산한 뒤 G_t(a_s(x))로 번역한다.
  • 잔차 블록에서 AdaLIN을 사용하여 어텐션 맵에서 학습된 gamma/beta로 IN과 LN을 동적으로 혼합한다.
  • 판별기는 타깃 도메인에서 실제-가짜 차이를 집중하기 위해 어텐션 a_Dt(x)를 사용한다.
  • 어텐션과 번역을 지도하기 위해 LSGAN 적대 손실, 순환일관성 손실, 항등 손실 및 CAM 손실의 조합으로 최적화한다.
  • X_s와 X_t의 비쌍 데이터로 학습을 Ground하고 CAM 기반 감독을 통해 도메인 간 정렬을 강제한다.

실험 결과

연구 질문

  • RQ1다양한 기하학적 변화가 있는 도메인 간에서도 어텐션-가이드 제네레이터와 디스크리미네이터가 비지도 이미지-대-이미지 번역을 개선할 수 있는가?
  • RQ2AdaLIN이 네트워크 아키텍처나 하이퍼 파라미터를 바꾸지 않고 형태 변화와 질감 변화 사이의 유연한 제어를 제공하는가?
  • RQ3auxiliary 분류기의 어텐션 맵이 의미 있는 번역 영역을 국지화하고 학습을 안정시키는 데 도움이 되는가?
  • RQ4U-GAT-IT가 다양한 데이터셋에서 최첨단 비지도 번역 방법에 비해 성능이 어떻게 되는가?
  • RQ5정해진 아키텍처로도 대형 기하학적 변화(selfie2anime)와 질감/스타일 전이(photo2vangogh) 모두를 다룰 수 있는가(데이터셋별 조정 없이)?

주요 결과

  • 제안된 어텐션 모듈이 제네레이터와 디스크리미네이터 모두가 의미적으로 중요한 영역에 초점을 맞추도록 유도하여 데이터셋 간 번역 품질을 향상시킨다.
  • AdaLIN은 각 계층의 IN/LN 균형을 조정하여 콘텐츠 보존과 스타일 변화에 대해 유연한 제어를 가능하게 하며, 형태가 강한 번역과 질감이 강한 번역에서 모두 개선을 가져온다.
  • CAM과 AdaLIN을 활용한 U-GAT-IT은 여러 데이터셋에서 CycleGAN, UNIT, MUNIT, DRIT, AGGAN 등과 비교하여 질적·정량적 평가에서 우수한 성능을 보인다.
  • 커널 인셉션 거리(KID) 애블레이션에서 어텐션과 AdaLIN을 모두 사용할 때 최저 점수를 보였고, 각각 단독으로 사용해도 경쟁력 있다.
  • 사용자 연구에서 특히 큰 형태 변화가 필요한 데이터셋(selfie2anime)에서 U-GAT-IT 번역에 대한 인지적 선호도가 더 높게 나타났다.
  • 모델은 다섯 가지 다양한 데이터셋에서 고정된 아키텍처와 하이퍼 파라미터로도 강력한 성능을 보이며, 강건성과 전이 가능성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.