QUICK REVIEW

[논문 리뷰] Are GANs Created Equal? A Large-Scale Study

Mario Lučić, Karol Kurach|arXiv (Cornell University)|2017. 11. 28.

Generative Adversarial Networks and Image Synthesis인용 수 77

한 줄 요약

이 논문은 최첨단 GAN의 대규모, 중립적 비교를 수행하여 충분한 하이퍼파라미터 튜닝이 있으면 많은 모델이 유사하게 성능을 보이며, FID를 보완하기 위해 정밀도/재현율 기반 평가지표를 제안합니다.

ABSTRACT

Generative adversarial networks (GAN) are a powerful subclass of generative models. Despite a very rich research activity leading to numerous interesting GAN algorithms, it is still very hard to assess which algorithm(s) perform better than others. We conduct a neutral, multi-faceted large-scale empirical study on state-of-the art models and evaluation measures. We find that most models can reach similar scores with enough hyperparameter optimization and random restarts. This suggests that improvements can arise from a higher computational budget and tuning more than fundamental algorithmic changes. To overcome some limitations of the current metrics, we also propose several data sets on which precision and recall can be computed. Our experimental results suggest that future GAN research should be based on more systematic and objective evaluation procedures. Finally, we did not find evidence that any of the tested algorithms consistently outperforms the non-saturating GAN introduced in \cite{goodfellow2014generative}.

연구 동기 및 목표

실용적인 계산 예산 하에서 GAN 변형 간의 공정하고 중립적인 비교를 동기화한다.
하이퍼파라미터, 시드, 데이터 세트가 보고된 GAN 성능에 미치는 영향을 평가한다.
GAN을 위한 현재 지표(FID 및 IS)의 강건성 및 한계를 평가한다.
FID를 보완하기 위한 제어된 데이터 매니폴드에서의 정밀도/재현율 기반 평가를 제안한다.

제안 방법

공통 아키텍처와 표준화된 학습 설정을 사용하여 조건부가 아닌 GAN을 비교한다.
모델과 데이터 세트의 민감도를 평가하기 위해 넓은 범위의 하이퍼파라미터 탐색(넓은 범위 → 좁은 범위)을 수행한다.
Fréchet Inception Distance (FID) 및 파생된 정밀도/재현율 지표를 사용하여 평가한다.
데이터 세트 간에 FID에 미치는 편향, 분산, 모드 드롭 효과를 분석한다.
재현성과 재현성 보장을 위한 실험 설정 및 구현을 오픈 소스로 제공한다.

실험 결과

연구 질문

RQ1하이퍼파라미터와 예산이 통제될 때 서로 다른 GAN 알고리즘이 객관적 성능 이점을 제공하는가?
RQ2고정 예산에서 하이퍼파라미터, 시드, 아키텍처에 GAN은 얼마나 민감한가?
RQ3FID가 데이터 세트 및 인코딩 간 GAN 비교에 대해 강건한 지표인가, 그리고 정밀도/재현율이 보완적 통찰을 제공할 수 있는가?
RQ4정밀도와 재현율을 근사화하여 모드 커버리지 및 과적합을 평가할 수 있는 데이터 세트를 설계할 수 있는가?

주요 결과

데이터 세트	MM GAN	NS GAN	LSGAN	WGAN	WGAN GP	DRAGAN	BEGAN	VAE
MNIST	9.8±0.9	6.8±0.5	7.8±0.6	6.7±0.4	20.3±5.0	7.6±0.4	13.1±1.0	23.8±0.6
FASHION	29.6±1.6	26.5±1.6	30.7±2.2	21.5±1.6	24.5±2.1	27.7±1.2	22.9±0.9	58.7±1.2
CIFAR	72.7±3.6	58.5±1.9	87.1±47.5	55.2±2.3	55.8±0.9	69.8±2.0	71.4±1.6	155.7±11.6
CELEBA	65.6±4.2	55.0±3.3	53.9±2.8	41.3±2.0	30.0±1.0	42.3±3.0	38.9±0.9	85.7±3.8

충분한 하이퍼파라미터 최적화와 무작위 재시작이 주어졌을 때 대부분의 GAN 변형은 비슷한 FID 점수를 달성한다.
가장 잘 보고된 점수는 데이터 세트와 예산에 따라 달라지므로 공정한 비교 하에서 단일 알고리즘이 우위를 점한다고 보긴 어렵다.
FID는 일부 변화에는 강건하지만 모드 드롭 및 인코딩 선택에 매우 민감하며 과적합을 탐지하지 못한다.
정밀도, 재현율, F1은 FID나 IS로 포착되지 않는 다양성과 커버리지의 차이를 드러낼 수 있다.
적은 예산에서 알고리즘 간 차이는 구분하기 어렵고, 큰 예산에서는 모델 간 품질 인식이 뒤바뀔 수 있다.
다양한 데이터 세트에 걸쳐 nsGAN과 wgan이 종종 우수한 F1 점수를 냈고, 다른 모델은 혼합된 결과를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.