QUICK REVIEW

[논문 리뷰] The Unusual Effectiveness of Averaging in GAN Training

Yasin Yazıcı, Chuan-Sheng Foo|arXiv (Cornell University)|2018. 06. 12.

Advanced Neural Network Applications참고 문헌 40인용 수 66

한 줄 요약

이 논문은 GAN 매개변수의 이동 평균(MA)과 지수 이동 평균(EMA)을 연구하여 EMA가 학습을 안정시키고 다양한 데이터셋과 아키텍처에서 성능을 향상시킨다는 것을 이론적 통찰과 광범위한 실험으로 보여준다.

ABSTRACT

We examine two different techniques for parameter averaging in GAN training. Moving Average (MA) computes the time-average of parameters, whereas Exponential Moving Average (EMA) computes an exponentially discounted sum. Whilst MA is known to lead to convergence in bilinear settings, we provide the -- to our knowledge -- first theoretical arguments in support of EMA. We show that EMA converges to limit cycles around the equilibrium with vanishing amplitude as the discount parameter approaches one for simple bilinear games and also enhances the stability of general GAN training. We establish experimentally that both techniques are strikingly effective in the non-convex-concave GAN setting as well. Both improve inception and FID scores on different architectures and for different GAN objectives. We provide comprehensive experimental results across a range of datasets -- mixture of Gaussians, CIFAR-10, STL-10, CelebA and ImageNet -- to demonstrate its effectiveness. We achieve state-of-the-art results on CIFAR-10 and produce clean CelebA face images.\footnote{~The code is available at \url{https://github.com/yasinyazici/EMA_GAN}}

연구 동기 및 목표

게임 역학을 바꾸지 않으면서 GAN 훈련의 주기성 및 불안정성을 다루기 위해 간단한 외부 평균화 전략을 촉진한다.
학습 외부 루프 정규화로서 Moving Average(MA)와 Exponential Moving Average(EMA)를 분석하고 비교한다.
EMA의 안정화 효과에 대한 이론적 근거를 제시하고 다수의 데이터셋과 GAN 목적 함수에서 경험적 이득을 보여준다.

제안 방법

GAN 훈련 중 생성자/판별자 매개변수에 대해 Moving Average(MA) 및 Exponential Moving Average(EMA)를 정의한다.
EMA 업데이트 규칙 theta_EMA^(t) = beta * theta_EMA^(t-1) + (1 - beta) * theta^(t) 를 도출하고 MA와 대조한다.
이론적 분석을 통해 EMA가 진동 진폭을 감소시키고 균형으로의 수렴을 강제하지 않는다는 것을 이중선형 사다리꼴 점점 문제에서 보인다.
비이중선형, 비볼록-대칭 GAN에서 Nash 균형 주위의 지역 안정성으로 분석을 확장한다.
ADAM 옵티마이저와 교대 업데이트를 사용하여 원래 GAN 및 Wasserstein-1 목적 함수를 사용한 가우스 혼합물, CIFAR-10, STL-10, CelebA, ImageNet에 대해 광범위한 실험을 수행한다.
EMA/MA를 기준선, Optimistic Adam(OMD), Consensus Optimization(CO), Zero-Centered Gradient Penalty(Zero-GP)와 비교한다.

실험 결과

연구 질문

RQ1EMA가 GAN 훈련의 균형점 주위의 주기화를 안정시키는가, 그리고 이 효과가 이중선형 및 비이중선 설정에서 MA와 어떻게 비교되는가?
RQ2EMA와 MA가 서로 다른 데이터셋, 아키텍처, 목적 함수에서 기본 게임 역학을 바꾸지 않고 GAN 성능(IS와 FID)을 향상시키는가?
RQ3EMA와 MA가 비볼록/대칭 GAN에서 다른 안정화 방법들(OMD, CO, Zero-GP)과 상호작용하는 방식은 무엇인가?
RQ4균형점 근처의 야곱다니안(Jacobian) 동역학에 대한 EMA의 이론적 함의는 무엇인가?
RQ5하이퍼파라미터(beta, 시작점)와 데이터셋 간 평가에 대한 실용적 가이드라인은 무엇인가?

주요 결과

EMA는 이중선형 게임에서 균형점을 주위로 진동 진폭을 감소시켜 순환적 행동을 안정시키고, 비이중선형 설정에서 지역적으로 안정한 고정점을 유지한다.
실험적으로, EMA는 CIFAR-10, STL-10, CelebA, ImageNet에서 비 평균화 모델 및 MA에 비해 Inception Score와 FID를 향상시킨다.
EMA는 MA를 능가하며 데이터셋과 아키텍처 전반에 걸쳐 더 강력한 이득을 제공하는 경향이 있고, MA는 지나치게 긴 창에서 성능이 저하될 수 있다.
가우스 혼합물에서 EMA는 기저 대비 Wasserstein-1 거리를 더 낮게 만들어 모드 커버리지가 더 균형 있게 이루어짐을 시사한다.
정성적으로, EMA는 CelebA 및 CIFAR-10에서 아티팩트를 줄이고 생성 이미지의 진화가 더 매끄럽게 나타나고; MA는 더 긴 AVG 윈도우에서 열화를 일으킬 수 있다.
본 연구는 CIFAR-10 및 점진적 CelebA 얼굴에서 테스트 설정 하에 최첨단에 근접한 결과를 보고한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.