[논문 리뷰] A Domain Gap Aware Generative Adversarial Network for Multi-domain Image Translation
이 논문은 대규모 도메인 갭을 더 잘 다루기 위해 사이클 일致성 대신 인지적 자기정규화를 도입한 통합 생성적 적대적 네트워크인 UMIT을 제안한다. 입력-출력 드로어를 활용하고 다중 척도 및 확장된 컨볼루션을 적용하여 도메인 간 전역적 형태와 국소 텍스처를 모두 유지하며, 고양이에서 개로, 인간에서 애니메이션으로의 번역과 같은 도전적인 작업에서 최신 기술 수준의 성능을 달성하여 FID 점수와 시각적 품질이 뛰어나다.
Recent image-to-image translation models have shown great success in mapping local textures between two domains. Existing approaches rely on a cycle-consistency constraint that supervises the generators to learn an inverse mapping. However, learning the inverse mapping introduces extra trainable parameters and it is unable to learn the inverse mapping for some domains. As a result, they are ineffective in the scenarios where (i) multiple visual image domains are involved; (ii) both structure and texture transformations are required; and (iii) semantic consistency is preserved. To solve these challenges, the paper proposes a unified model to translate images across multiple domains with significant domain gaps. Unlike previous models that constrain the generators with the ubiquitous cycle-consistency constraint to achieve the content similarity, the proposed model employs a perceptual self-regularization constraint. With a single unified generator, the model can maintain consistency over the global shapes as well as the local texture information across multiple domains. Extensive qualitative and quantitative evaluations demonstrate the effectiveness and superior performance over state-of-the-art models. It is more effective in representing shape deformation in challenging mappings with significant dataset variation across multiple domains.
연구 동기 및 목표
- 대규모 형상 왜곡에 대해 사이클 일치성의 한계를 해결하기 위해.
- 역매핑 감독이 필요 없이 다수의 도메인 매핑을 단일 생성기로 통합하기 위해.
- 매우 다양한 데이터셋 변동성이 있는 도메인 간 전역적 구조와 국소 텍스처를 유지하기 위해.
- 역매핑에 필요한 추가 파라미터 없이, 다수의 생성기와 판별기 요구 모델 대비 모델 복잡도와 학습 비용을 줄이기 위해.
제안 방법
- 도메인 특화 특징을 분리하고 국소 텍스처를 유지하기 위해 입력 및 출력 드로어를 갖춘 통합 생성기를 제안한다.
- 사이클 일치성을 인지적 자기정규화 손실로 대체하여 입력과 번역된 출력 간의 인지적 유사성을 강제한다.
- 저주파 수형 변화를 감지하기 위해 수신장 영역을 확장하기 위해 다중 척도 분류기와 확장 컨볼루션을 활용한다.
- 역매핑에 의해 유도되는 추가 파라미터 없이, 생성적 손실과 인지적 정규화를 함께 사용해 단일 생성기와 판별기를 훈련한다.
- 고정밀 이미지 생성을 위해 인코더와 디코더 사이에 스킵 연결(잔여 블록)을 통합한다.
- 단일 모델로 m개의 도메인을 지원하는 통합 아키텍처를 채택하여 계산 및 파라미터 오버헤드를 감소시킨다.
실험 결과
연구 질문
- RQ1인지적 자기정규화가 다중 도메인 이미지 번역 중 형상과 텍스처 보존에 사이클 일치성보다 뛰어나게 작용할 수 있는가?
- RQ2입력-출력 드로어 메커니즘이 도메인 특화 특징을 분리하고 국소 텍스처 전달을 향상시키는 데 얼마나 효과적인가?
- RQ3통합 단일 생성기 모델이 사이클GAN 및 MUNIT과 같은 다중 생성기 모델보다 대도메인 갭 상황에서 더 뛰어난 성능을 내는가?
- RQ4인지적 정규화가 픽셀 수준의 사이클 제약보다 형상 왜곡에 얼마나 더 잘 기여하는가?
주요 결과
- 인간에서 애니메이션 번역 작업에서 모든 기준 모델 대비 가장 낮은 프레셰 인셉션 거리(Fréchet Inception Distance, FID) 점수를 기록하여 우수한 이미지 품질과 분포 일치를 나타낸다.
- 10개 도메인을 가진 얼굴 노화 데이터셋에서 FID 점수 12.3을 기록하여 사이클GAN(15.6)과 스타GAN(14.1)을 모두 앞서며, 복잡한 다단계 번역에서의 효과성을 입증한다.
- 시각적 결과는 고양이에서 개, 인간 얼굴에서 애니메이션으로의 번역과 같이 대규모 형상 왜곡이 발생하는 도메인 간 번역에서도 현실적인 텍스처와 정확한 구조적 변화를 성공적으로 구현함을 보여준다.
- 제거 실험 결과, 인지적 자기정규화 손실이 필수적임을 확인: 이를 제거하면 FID 점수가 상승하고 도메인 매핑 학습에 실패한다.
- 입력-출력 드로어를 가진 모델는 드로어가 없는 변종 대비 더 선명한 국소 텍스처와 더 적은 아티팩트를 생성하여 드로어 메커니즘의 효과성을 입증한다.
- 통합 모델는 단일 생성기와 판별기만을 사용하여 파라미터 수를 69.74M(비교 모델인 DRIT의 123.42M 및 MUNIT의 54.06M 대비)로 줄였고, 모든 m개 도메인에서 성능을 유지하거나 향상시켰다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.