[論文レビュー] The Unusual Effectiveness of Averaging in GAN Training
本論文はGANパラメータの移動平均(MA)と指数移動平均(EMA)を調査し、EMAがトレーニングを安定化させ、さまざまなデータセットとアーキテクチャにおいて性能を向上させることを示し、理論的洞察と広範な実験を提供する。
We examine two different techniques for parameter averaging in GAN training. Moving Average (MA) computes the time-average of parameters, whereas Exponential Moving Average (EMA) computes an exponentially discounted sum. Whilst MA is known to lead to convergence in bilinear settings, we provide the -- to our knowledge -- first theoretical arguments in support of EMA. We show that EMA converges to limit cycles around the equilibrium with vanishing amplitude as the discount parameter approaches one for simple bilinear games and also enhances the stability of general GAN training. We establish experimentally that both techniques are strikingly effective in the non-convex-concave GAN setting as well. Both improve inception and FID scores on different architectures and for different GAN objectives. We provide comprehensive experimental results across a range of datasets -- mixture of Gaussians, CIFAR-10, STL-10, CelebA and ImageNet -- to demonstrate its effectiveness. We achieve state-of-the-art results on CIFAR-10 and produce clean CelebA face images.\footnote{~The code is available at \url{https://github.com/yasinyazici/EMA_GAN}}
研究の動機と目的
- GANトレーニングのゲームダイナミクスを変更せずに、サイクルと不安定性に対処するための単純で外部平均化戦略を動機づける。
- 外部トレーニングループ正則化としてMoving Average (MA) とExponential Moving Average (EMA)を分析・比較する。
- EMAの安定化効果を理論的に正当化し、複数のデータセットとGAN目的関数にわたる経験的利得を示す。
提案手法
- GANトレーニング中のジェネレータ/ディスクリミネータパラメータに対してMoving Average (MA)とExponential Moving Average (EMA)を定義する。
- EMAアップデートルール theta_EMA^(t) = beta * theta_EMA^(t-1) + (1 - beta) * theta^(t) を導出し、MAと対比する。
- 双線形のサドル点設定における理論解析を提供し、EMAが振動振幅を抑制し平衡への収束を強制しないことを示す。
- 非双線形・非凸-凹のGANにおけるナッシュ均衡周辺の局所安定性へ解析を拡張する。
- オリジナルGANとWasserstein-1目的関数を用い、ADAM最適化と交互更新でGaussian混合分布、CIFAR-10、STL-10、CelebA、ImageNetで広範な実験を行う。
- EMA/MAをベースライン、Optimistic Adam (OMD)、Consensus Optimization (CO)、Zero-Centered Gradient Penalty (Zero-GP)と比較する。
実験結果
リサーチクエスチョン
- RQ1EMAはGANトレーニングにおける平衡周りのサイクリックを安定化させるか、双線形と非双線形設定でMAと比較したときの影響はどうなるか。
- RQ2EMAとMAはデータセット・アーキテクチャ・目的関数が異なる場合でも、基底のゲームダイナミクスを変更せずにGANの性能(ISとFID)を向上させるか。
- RQ3EMAとMAは他の安定化手法(OMD、CO、Zero-GP)と非凸/凹のGANにおいてどのように相互作用するか。
- RQ4GANトレーニングの平衡近傍のヤコビ行列ダイナミクスに対するEMAの理論的影響は何か。
- RQ5ハイパーパラメータ(beta、開始点)とデータセット間の評価に関する実践的指針は何か。
主な発見
- EMAは双線形ゲームにおいて平衡周りの振動振幅を縮小することにより周期的挙動を安定化させ、非双線形設定における局所安定固定点の安定性を保持する。
- 実験的には、CIFAR-10、STL-10、CelebA、ImageNetにおいて、非平均化モデルおよびMAと比較してInception ScoreとFIDを改善する。
- EMAはMAよりも優れた性能を示し、データセットとアーキテクチャ全般でより堅牢な利得をもたらすことが多い;MAはあまり長いウィンドウで平均化すると性能が低下する場合がある。
- 混合ガウス分布では、EMAはベースラインおよび他の平均化手法よりもWasserstein-1距離を低下させ、モードカバレッジがより均衡していることを示す。
- 定性的には、EMAはCelebAとCIFAR-10でアーティファクトを減らし、生成画像の推移を滑らかにする。MAは長い平均化ウィンドウで劣化を招く場合がある。
- 本研究は、CIFAR-10およびクリーンなCelebA顔画像において、検証設定の下で最先端に似た結果を報告する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。