Skip to main content
QUICK REVIEW

[논문 리뷰] Image Augmentations for GAN Training

Zhengli Zhao, Zizhao Zhang|arXiv (Cornell University)|2020. 06. 04.
Advanced Neural Network Applications참고 문헌 47인용 수 116
한 줄 요약

이 논문은 GAN 학습을 위한 이미지 증강을 체계적으로 연구하고, 실제 이미지와 생성된 이미지를 모두 증강시키는 것이 특히 일관성 규제와 대조적 규제와 함께 이미지 품질 향상과 CIFAR-10에서 최첨단 성능을 달성함을 보여준다.

ABSTRACT

Data augmentations have been widely studied to improve the accuracy and robustness of classifiers. However, the potential of image augmentation in improving GAN models for image synthesis has not been thoroughly investigated in previous studies. In this work, we systematically study the effectiveness of various existing augmentation techniques for GAN training in a variety of settings. We provide insights and guidelines on how to augment images for both vanilla GANs and GANs with regularizations, improving the fidelity of the generated images substantially. Surprisingly, we find that vanilla GANs attain generation quality on par with recent state-of-the-art results if we use augmentations on both real and generated images. When this GAN training is combined with other augmentation-based regularization techniques, such as contrastive loss and consistency regularization, the augmentations further improve the quality of generated images. We provide new state-of-the-art results for conditional generation on CIFAR-10 with both consistency loss and contrastive loss as additional regularizations.

연구 동기 및 목표

  • GAN 학습에서 광범위한 이미지 증강 연산의 효능을 평가한다.
  • 실제 이미지만 증강하는지, 아니면 실제 이미지와 생성된 이미지를 모두 증강하는지가 GAN 성능에 영향을 주는지 확인한다.
  • 일관성 규제 및 대조적 손실과 같은 증강 기반 규제의 GAN에 대한 영향력을 평가한다.
  • 다양한 아키텍처에서 GAN 생성 품질을 가장 크게 개선하는 증강 유형과 강도를 파악한다.

제안 방법

  • SNDCGAN(비조건부)과 BigGAN(조건부)을 사용하여 CIFAR-10에서 10개의 기본 증강과 3개의 고급 증강을 평가한다.
  • 판별기에 입력하기 전에 실제 이미지만 증강하는지, 아니면 실제 이미지와 생성된 이미지를 모두 증강하는지 비교한다.
  • HINGE 손실을 적용하고 여러 무작위 시드로 Fréchet Inception Distance(FID)를 보고하여 로버스트함을 보장한다.
  • 증강된 데이터에 대해 일관성 규제(CR)와 균형 CR(BCR)을 적용하여 추가 이득을 평가한다.
  • 실험적 복제 효과를 검토하기 위해 실제 이미지와 가짜 이미지의 증강 복사본에 대조 손실(Cntr)을 도입한다.
  • Cntr을 BCR과 결합하여 CIFAR-10 조건부 생성에서 최첨단 FID를 달성한다.

실험 결과

연구 질문

  • RQ1증강을 실제 이미지에만 적용하는지, 아니면 실제 이미지와 생성된 이미지를 모두 적용하는지가 GAN 성능에 영향을 주는가?
  • RQ2공간적 증강과 시각적 증강 중 어떤 유형이 GAN 생성 품질을 가장 크게 향상시키는가?
  • RQ3일관성 규제와 대조적 손실은 증강 전략과 GAN에 어떻게 상호작용하는가?
  • RQ4증강과 규제를 결합하면 CIFAR-10에서 최첨단 결과를 달성할 수 있는가?

주요 결과

  • 실제 이미지만 증강하는 것은 기본 GAN 훈련에 비효과적이며 FID를 악화시킬 수 있다.
  • 실제 이미지와 생성된 이미지를 모두 증강시키면 아키텍처에 관계없이 GAN 성능이 일관되게 향상된다.
  • 공간적 증강(예: 평행이동, 확대)이 시각적 증강에 비해 FID를 개선하는 데 더 우수하다.
  • 증강된 데이터에 대한 일관성 규제가 상당한 이득을 제공하며, 종종 기본 CR 변형보다 우수하다.
  • 대조적 손실과 일관성 규제 및 증강의 결합은 CIFAR-10 조건부 생성에서 새로운 최첨단 FID를 달성한다.
  • CIFAR-10의 경우, 증강과 규제로 기존 CR-GAN 방법을 증강 없이도 대등하거나 능가할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.