QUICK REVIEW

[논문 리뷰] Consistency Regularization for Generative Adversarial Networks

Han Zhang, Zizhao Zhang|arXiv (Cornell University)|2019. 10. 26.

Generative Adversarial Networks and Image Synthesis참고 문헌 37인용 수 47

한 줄 요약

CR-GAN은 의미 보존 증강에 대한 민감도를 벌점함으로써 GAN 판별기에 일관성 규제를 추가하고, CIFAR-10 및 CelebA에서 최첨단 FID를 달성하며 CIFAR-10 및 ImageNet-2012에서 조건부 생성성을 향상시킨다.

ABSTRACT

Generative Adversarial Networks (GANs) are known to be difficult to train, despite considerable research effort. Several regularization techniques for stabilizing training have been proposed, but they introduce non-trivial computational overheads and interact poorly with existing techniques like spectral normalization. In this work, we propose a simple, effective training stabilizer based on the notion of consistency regularization---a popular technique in the semi-supervised learning literature. In particular, we augment data passing into the GAN discriminator and penalize the sensitivity of the discriminator to these augmentations. We conduct a series of experiments to demonstrate that consistency regularization works effectively with spectral normalization and various GAN architectures, loss functions and optimizer settings. Our method achieves the best FID scores for unconditional image generation compared to other regularization methods on CIFAR-10 and CelebA. Moreover, Our consistency regularized GAN (CR-GAN) improves state-of-the-art FID scores for conditional generation from 14.73 to 11.48 on CIFAR-10 and from 8.73 to 6.66 on ImageNet-2012.

연구 동기 및 목표

스펙트럴 노멀라이제이션을 보완하는 경량 규제로 GAN 훈련의 안정화를 촉진한다.
의미 보존 증강에 대해 판별기 출력이 불변하도록 강제하여 일관성 규제(CR)를 도입한다.
다양한 GAN 손실, 아키텍처, 최적화 알고리즘과의 CR-GAN 호환성을 보여준다.
CR-GAN이 조건 없는 생성에서 최첨단 FID를 달성하고 조건부 생성 점수를 개선함을 보인다.

제안 방법

판별기에 입력되는 실제 데이터를 의미 보존 변형으로 증강한다.
원래 입력과 증강된 입력에 대한 판별기 출력 간의 L2 거리를 최소화하는 페널티 항 L_cr를 추가한다 (L_cr = ||D(x) - D(T(x))||^2).
생성기 손실을 변하지 않은 채로 계수 lambda와 함께 판별기 손실에 L_cr를 통합한다.
여러 GAN 변형과 손실에 걸쳐 CR-GAN을 적용하고 스펙트럴 노멀라이제이션과 함께 그래디언트 기반 규제에 비해 계산 부하가 감소함을 보여준다.
증강 유형, 규제 계수의 민감도, 아키텍처 의존성을 분석하기 위한 ablation을 제공한다.

실험 결과

연구 질문

RQ1일관성 규제가 서로 다른 손실 및 아키텍처 전반에 걸쳐 GAN 훈련의 안정성과 샘플 품질을 향상시키는가?
RQ2CR-GAN은 스펙트럴 노멀라이제이션 및 다른 규제들과 어떻게 상호작용하는가?
RQ3증강 유형과 규제 강도가 CR-GAN 성능에 미치는 영향은 무엇인가?
RQ4CR-GAN이 조건 없는 및 조건부 이미지 생성에서 최첨단 GAN을 개선할 수 있는가?
RQ5CR-GAN이 그래디언트 기반 규제에 비해 계산 효율적인가?

주요 결과

CR-GAN은 테스트 설정 전반에서 CIFAR-10 및 CelebA의 무조건적 이미지 생성에 대해 최상의 FID 점수를 달성한다.
조건부 생성의 경우, CR-GAN은 CIFAR-10에서 FID를 14.73에서 11.48로, ImageNet-2012에서 8.73에서 6.66으로 개선한다.
CR-GAN은 다양한 아키텍처와 손실 함수에 걸쳐 스펙트럴 노멀라이제이션과 함께 사용할 때 일관되게 성능을 향상시킨다.
CR-GAN은 그래디언트 기반 규제보다 약 1.7배 빠르며 전방/역전파 오버헤드가 작게 추가된다.
최첨단 BigGAN⋆에 CR을 추가하면 CIFAR-10 FID가 20.42에서 11.48로, ImageNet FID가 7.75에서 6.66으로 개선된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.