Skip to main content
QUICK REVIEW

[논문 리뷰] LOGAN: Latent Optimisation for Generative Adversarial Networks

Yan Wu, Jeff Donahue|arXiv (Cornell University)|2019. 12. 02.
Generative Adversarial Networks and Image Synthesis참고 문헌 48인용 수 54
한 줄 요약

LOGAN은 입력 z의 자연그라디언트 기반 잠재 최적화를 수행하여 GAN 훈련을 개선하고, 판별자-생성자 간 상호 작용을 향상시키며 구조 변경 없이 ImageNet (128x128)에서 최첨단 성과를 달성합니다.

ABSTRACT

Training generative adversarial networks requires balancing of delicate adversarial dynamics. Even with careful tuning, training may diverge or end up in a bad equilibrium with dropped modes. In this work, we improve CS-GAN with natural gradient-based latent optimisation and show that it improves adversarial dynamics by enhancing interactions between the discriminator and the generator. Our experiments demonstrate that latent optimisation can significantly improve GAN training, obtaining state-of-the-art performance for the ImageNet ($128 imes 128$) dataset. Our model achieves an Inception Score (IS) of $148$ and an Fréchet Inception Distance (FID) of $3.4$, an improvement of $17\%$ and $32\%$ in IS and FID respectively, compared with the baseline BigGAN-deep model with the same architecture and number of parameters.

연구 동기 및 목표

  • 훈련 중 잠재 입력 z를 최적화하여 GAN 훈련의 적대적 역학을 향상시키는 것.
  • 자연경사하강법(NGD)을 통한 잠재 최적화가 대규모 GAN에서 더 높은 이미지 충실도와 다양성을 산출함을 보여준다.
  • GAN의 미분 가능 게임 역학에 잠재 최적화가 어떻게 영향을 미치는지 이론적 통찰을 제공한다.
  • 아키텍처를 변경하지 않고 LOGAN이 최첨단 BigGAN-deep를 능가할 수 있음을 보인다.
  • LOGAN과 Unrolled GANs 및 Symplectic Gradient Adjustment(SGA)와의 관계를 분석한다.

제안 방법

  • z에 대한 생성기 손실의 그래디언트를 이용해 z를 업데이트하는 잠재 최적화 단계를 사용한다.
  • 표준 경사하강법을 자연경사하강법으로 대체하여 잠재 업데이트 Δz(NGD)를 계산하며, Δz = α g/(β + ||g||^2) 이고 g = ∂f(z)/∂z 이다.
  • 잠재 최적화를 통해 역전파하여 D와 G 다이나믹스를 연결하는 2차 항을 얻는다.
  • z-정규화 항 Rz로 잠재 업데이트를 정규화하고, 일부 요소를 무작위로 유지하면서 z의 일부 부분 c를 선택적으로 최적화한다.
  • 중간 규모 DCGAN/SN-GAN 및 대규모 BigGAN-deep를 ImageNet (128x128)에서 트렁케이션 커브의 여부로 평가한다.
  • FID와 IS 지표를 사용하여 기준 BigGAN-deep 및 LOGAN 변형(GD 및 NGD)과 비교한다.

실험 결과

연구 질문

  • RQ1자연경사하강법을 통한 잠재 코드 z의 잠재 최적화가 대규모 모델에서 GAN 훈련 다이나믹스와 샘플 품질을 향상시킬 수 있는가?
  • RQ2FID와 IS 측면에서 LOGAN은 기본 BigGAN-deep 및 GD(gradient descent)와 비교하여 어떤가?
  • RQ3LOGAN, SGA 및 Unrolled GANs 사이에 어떤 이론적 연결이 존재하며, 이것이 적대적 훈련의 다이나믹스에 어떤 정보를 주는가?
  • RQ4ImageNet 규모의 생성으로 LOGAN을 확장하기 위한 실용적 고려사항(하이퍼파라미터, 정규화, 평가)은 무엇인가?

주요 결과

  • NGD를 적용한 LOGAN은 ImageNet 128x128에서 기준 BigGAN-deep 대비 큰 개선을 달성하며 FID 3.36±0.14 및 IS 148.2±3.1을 기록한다.
  • BigGAN-deep과 비교해 LOGAN-NGD는 FID를 약 32% 감소시키고 IS를 약 17% 증가시킨다.
  • LOGAN-GD는 LOGAN-NGD보다 이익이 작으며, z에 대한 단순 경사 업데이트보다 NGD의 이점을 강조한다.
  • LOGAN을 통한 잠재 최적화는 SGA에 비견되는 2차 상호작용을 도입해 훈련 다이나믹스를 개선하고 네트워크 매개변수를 전체적으로 언롤링하지 않는다.
  • 적절한 감쇠와 z-정규화 항으로 z의 일부(예: z의 50-80%)를 정규화하고 부분적으로 업데이트하면 훈련이 안정되고 샘플 품질이 향상된다.
  • 절단 연구에서 잠재 도함수 항을 제거하거나 stop_gradient를 사용하면 안정성이 저하되며, 잠재 최적화를 통한 역전파 2차 항의 중요성을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.