QUICK REVIEW

[논문 리뷰] Large Scale GAN Training for High Fidelity Natural Image Synthesis

Andrew Brock, Jeff Donahue|arXiv (Cornell University)|2018. 09. 28.

Generative Adversarial Networks and Image Synthesis인용 수 2,423

한 줄 요약

이 논문은 대규모로 BigGAN을 학습시켜 ImageNet에서 최첨단 충실도와 다양성을 달성하고, orthogonal regularization과 the truncation trick을 도입하며, 대규모에서의 불안정성 분석을 수행한다.

ABSTRACT

Despite recent progress in generative image modeling, successfully generating high-resolution, diverse samples from complex datasets such as ImageNet remains an elusive goal. To this end, we train Generative Adversarial Networks at the largest scale yet attempted, and study the instabilities specific to such scale. We find that applying orthogonal regularization to the generator renders it amenable to a simple "truncation trick," allowing fine control over the trade-off between sample fidelity and variety by reducing the variance of the Generator's input. Our modifications lead to models which set the new state of the art in class-conditional image synthesis. When trained on ImageNet at 128x128 resolution, our models (BigGANs) achieve an Inception Score (IS) of 166.5 and Frechet Inception Distance (FID) of 7.4, improving over the previous best IS of 52.52 and FID of 18.6.

연구 동기 및 목표

고충실도와 다양한 이미지 합성을 위한 파라미터 수와 배치 크기의 확장이 이점이 있는지 입증한다.
아키텍처 및 정규화 변경을 도입하여 GAN의 확장성과 조건화를 개선한다.
절단(truncation)이 충실도와 다양성 간의 무역을 어떻게 바꾸고, 사후 제어 메커니즘을 제공하는지 보여준다.
대규모 GAN의 불안정성을 분석하고 성능 감소를 크게 초래하지 않으면서 학습을 안정시키는 방법을 평가한다.

제안 방법

이전 연구와 비교하여 파라미터 수와 배치 크기를 증가시켜 GAN을 확장한다.
BatchNorm 이득/바이어스에 투영된 공유 클래스 임베딩을 사용한다.
잠재 벡터 z로부터 다수의 생성기 층까지 스킵 연결(Skip-z)을 추가한다.
Orthogonal Regularization을 도입하여 잘 조건화된 직교 유사 가중치를 촉진한다.
절단 트릭을 도입하고 분석하여 임계값 이내에서 잠재 z를 재샘플링함으로써 샘플 충실도와 다양성 간의 무역을 평가한다.
Spectral normalization과 gradient penalties를 안정화 도구로 활용하고 그 영향을 평가한다.

실험 결과

연구 질문

RQ1모델 크기와 배치 크기의 확장이 ImageNet 이미지의 충실도와 다양성에 어떤 영향을 미치는가?
RQ2확장에 따른 안정적 학습과 성능 향상을 가능하게 하는 아키텍처 및 정규화 변화는 무엇인가?
RQ3절단 트릭이 학습 안정성을 해치지 않으면서 충실도-다양성의 실용적 제어를 제공할 수 있는가?
RQ4대규모 GAN의 주요 불안정성 원인은 무엇이며 극심한 성능 손실 없이 이를 완화할 수 있는가?

주요 결과

BigGANs는 128×128에서 IS 166.5, FID 7.4와 같은 다중 해상도에서 ImageNet의 최첨단 IS와 FID를 달성한다.
256×256 및 512×512에서 BigGANs는 IS 232.5 및 FID 8.1; IS 241.5 및 FID 11.5를 각각 달성한다.
Truncation은 샘플의 다양성에 대한 대가로 샘플 품질(IS/FID)을 향상시키며, Orthogonal Regularization으로 실행의 60%까지 늘어나 샘플 수렴 가능성이 증가한다(16%에서).
공유 임베딩과 skip-z 연결은 훈련 효율성과 성능에서 현저한 이점을 가져오며(예: 다양성과 충실도의 결합 개선).
대규모 학습은 생성기 조건화 및 판별기 동역학과 연결된 불안정성을 드러내며, D에 대한 공격적 그라디언트 페널티는 안정성을 높이지만 성능 손실을 초래할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.