[논문 리뷰] StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
StyleGAN-NADA는 사전 학습된 이미지 생성기를 텍스트 프롬프트만으로 안내된 도메인 외 이미지 생성으로 훈련시키며, CLIP 기반 방향 손실과 데이터 수집을 피하기 위한 적응 계층 동결을 사용합니다.
Can a generative model be trained to produce images from a specific domain, guided by a text prompt only, without seeing any image? In other words: can an image generator be trained "blindly"? Leveraging the semantic power of large scale Contrastive-Language-Image-Pre-training (CLIP) models, we present a text-driven method that allows shifting a generative model to new domains, without having to collect even a single image. We show that through natural language prompts and a few minutes of training, our method can adapt a generator across a multitude of domains characterized by diverse styles and shapes. Notably, many of these modifications would be difficult or outright impossible to reach with existing methods. We conduct an extensive set of experiments and comparisons across a wide range of domains. These demonstrate the effectiveness of our approach and show that our shifted models maintain the latent-space properties that make generative models appealing for downstream tasks.
연구 동기 및 목표
- 데이터 수집 없이도 도메인 외 이미지 생성을 가능하게 하는 것을 목표로 한다.
- CLIP의 텍스트-이미지 정렬을 활용하여 생성기 적응을 안내한다.
- 도메인 변경 동안 잠재 공간 구조를 보존하는 훈련 방식을 개발한다.
- 급격한 도메인 변화의 안정화를 위해 적응형 계층 동결을 도입한다.
- 스타일, 형태, 교차 도메인 편집에 걸친 넓은 적용 가능성을 입증한다.
제안 방법
- 두 개의 동기화된 생성기를 사용한다: 고정된 G_frozen과 매핑 네트워크를 공유하는 학습 가능 G_train.
- G_train과 G_frozen 사이의 CLIP 임베딩 변화가 소스 텍스트와 대상 텍스트 간 임베딩 차이와 일치하도록 방향성 CLIP 손실을 정의한다.
- 잠재 코드 편집에 따라 업데이트할 가장 관련성 높은 계층을 선택하는 적응형 계층 동결 메커니즘을 도입한다.
- 모드 붕괴와 적대적 해를 피하기 위해 글로벌 CLIP 손실 대신 방향성 CLIP 목표를 채택한다.
- 광범위한 형태 변화에 더 잘 대응하기 위해 잠재 매퍼(StyleCLIP 매퍼)를 선택적으로 적용한다.
- 적응된 생성기에서도 기존 편집 방향이 여전히 사용 가능하도록 잠재 공간 정합을 유지한다.
실험 결과
연구 질문
- RQ1프리트레인된 생성기가 대상 이미지 없이 텍스트로만 지정된 새로운 도메인으로 이동될 수 있는가?
- RQ2CLIP를 사용하여 생성기 적응을 안내하되 적대적이거나 붕괴된 출력은 생성되지 않도록 할 수 있는가?
- RQ3현실감을 보존하면서 robust하고 큰 도메인 변화를 달성하기 위해 네트워크의 어느 부분을 업데이트해야 하는가?
- RQ4적응형 계층 선택과 방향성 CLIP 손실이 급격한 도메인 변화 동안 잠재 공간 구조를 유지시킬 수 있는가?
- RQ5적응된 생성기가 기존 잠재 공간 편집 및 이미지-대-이미지 번역 작업을 얼마나 잘 지원하는가?
주요 결과
- 이 방법은 텍스트 프롬프트만으로 다양한 대상(스타일, 질감, 형태)에 걸친 도메인 외 생성을 가능하게 한다.
- 방향 CLIP 손실이 있는 두-generator 구성이 모드 붕괴와 적대적 해를 방지한다.
- 적응형 계층 동결은 매 이터레이션마다 가장 관련성 높은 네트워크 계층을 식별하고 업데이트하여 학습 안정성을 향상시킨다.
- 적응된 생성기는 잠재 공간 구조를 보존하고 소스 도메인의 기존 편집 방향과 모델을 수용한다.
- 이 방법은 StyleCLIP 기반 편집 및 소수 샷 방법과 비교해도 높은 품질과 다양성을 달성하며 학습 이미지를 사용하지 않는다.
- 잠재 역전 및 편집 워크플로우는 여전히 호환되며, 일반 도구로 도메인 간 이미지 조작을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.