[논문 리뷰] Freeze the Discriminator: a Simple Baseline for Fine-Tuning GANs
하위 판별기의 층을 고정하는 동안 상위 층을 미세 조정하는 FreezeD를 통해 GAN을 새로운 도메인으로 전이; 이 간단한 baseline은 조건부 및 무조건부 GAN에서 이전 전이 학습 방법들보다 FID를 일관되게 향상시킨다.
Generative adversarial networks (GANs) have shown outstanding performance on a wide range of problems in computer vision, graphics, and machine learning, but often require numerous training data and heavy computational resources. To tackle this issue, several methods introduce a transfer learning technique in GAN training. They, however, are either prone to overfitting or limited to learning small distribution shifts. In this paper, we show that simple fine-tuning of GANs with frozen lower layers of the discriminator performs surprisingly well. This simple baseline, FreezeD, significantly outperforms previous techniques used in both unconditional and conditional GANs. We demonstrate the consistent effect using StyleGAN and SNGAN-projection architectures on several datasets of Animal Face, Anime Face, Oxford Flower, CUB-200-2011, and Caltech-256 datasets. The code and results are available at https://github.com/sangwoomo/FreezeD.
연구 동기 및 목표
- 데이터가 제한되고 분포 이동이 있을 때 GAN에 대한 간단하고 견고한 전이 학습 기준선을 제시한다.
- 판별기의 하위 층 고정이 무조건부 및 조건부 GAN에서 강력한 성능을 낳는지 보여준다.
- 다양한 데이터셋과 아키텍처에서 FreezeD의 일관성과 안정성을 입증한다.
- Fine-tuning, GLO, MineGAN, L2-SP, Feature Distillation 등 기존 방법과 FreezeD를 비교하고 실용적 이점을 강조한다.
제안 방법
- 판별기를 기능 추출기(하위 층)와 분류기(상위 층)로 분할하고 분류기만 파인튜닝한다.
- FFHQ에서 사전 학습된 StyleGAN과 ImageNet에서 사전 학습된 SNGAN-projection에 이 FreezeD 기준선을 적용한다.
- 다양한 타깃 데이터셋(Animal Face, Anime Face, Oxford Flower, CUB-200-2011, Caltech-256)에서 FID로 평가한다.
- Fine-tuning, Scale/Shift, GLO, MineGAN, L2-SP, Feature Distillation 등 기존 전이 방법과 FreezeD를 비교한다.
- 어떤 판별기 층을 고정할지에 대한 연구와 고정이 안정성 및 다양성에 미치는 영향을 Ablation으로 제시한다.
실험 결과
연구 질문
- RQ1파인튜닝 중 판별기의 하위 층 고정이 무작위 파인튜닝에 비해 GAN의 전이 학습을 개선하는가?
- RQ2제한된 데이터로 다양한 타깃 데이터셋에서 무조건부 및 조건부 GAN에 대해 FreezeD의 성능은 어떠한가?
- RQ3FID 및 학습 안정성 측면에서 FreezeD는 기존 전이 학습 방법과 어떻게 비교되는가?
주요 결과
- FreezeD는 무조건부 및 조건부 GAN에서 vanilla 파인튜닝보다 FID를 일관되게 향상시킨다.
- 적절한 깊이까지 판별기의 하위 층을 고정하면 학습이 안정화되고 여러 데이터셋에서 최적/최종 FID 점수가 더 우수하다.
- StyleGAN을 Animal Face 및 Anime Face로 전이할 때 FreezeD가 Scale/Shift, GLO, MineGAN, L2-SP 등 기존 방법보다 대부분의 설정에서 우수하다.
- SNGAN-projection를 Oxford Flower, CUB-200-2011, Caltech-256으로 전이한 경우 FreezeD가 최적/최종 FID를 여러 경우에 걸쳐 향상시키지만 데이터셋에 따라 안정성은 다를 수 있다.
- Feature Distillation은 FreezeD와 비슷한 결과를 보이나 일반적으로 더 느리며, FreezeD가 더 간단하고 효과적인 기본으로 남는다.
- 정성적 결과에서 FreezeD가 더 일관된 클래스 샘플을 생성하고 잠재 코드 의미를 보존하는 경향을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.