QUICK REVIEW

[論文レビュー] GAN-QP: A Novel GAN Framework without Gradient Vanishing and Lipschitz Constraint

Jianlin Su|arXiv (Cornell University)|Nov 18, 2018

Adversarial Robustness in Machine Learning参考文献 12被引用数 25

ひとこと要約

本稿では、識別器に1リプシッツ制約を必要とせず勾配消失を解消する新しいGANフレームワーク、GAN-QPを提案する。双対空間において直接新たな発散（QP-div）を構築することで、識別器損失に二次罰則項を導入し、訓練を安定化させる。勾配罰則やスペクトル正規化を不要とし、256×256解像度でSOTAのFIDスコア（22.7）を達成し、優れたサンプル品質を実現した。

ABSTRACT

We know SGAN may have a risk of gradient vanishing. A significant improvement is WGAN, with the help of 1-Lipschitz constraint on discriminator to prevent from gradient vanishing. Is there any GAN having no gradient vanishing and no 1-Lipschitz constraint on discriminator? We do find one, called GAN-QP. To construct a new framework of Generative Adversarial Network (GAN) usually includes three steps: 1. choose a probability divergence; 2. convert it into a dual form; 3. play a min-max game. In this articles, we demonstrate that the first step is not necessary. We can analyse the property of divergence and even construct new divergence in dual space directly. As a reward, we obtain a simpler alternative of WGAN: GAN-QP. We demonstrate that GAN-QP have a better performance than WGAN in theory and practice.

研究の動機と目的

標準GAN（SGAN）やf-GANにおける、長年の勾配消失問題に対処すること。
WGANのようなフレームワークで一般的だが制限的な、明示的な1リプシッツ制約や勾配罰則の必要性を排除すること。
元の発散定義に依存せずに、双対空間において確率発散を直接構築・分析できることを示すこと。
理論的・実践的両面で既存手法を上回る、より単純で安定性に優れたGANフレームワーク（GAN-QP）を構築すること。
高解像度（最大512×512）および双方向生成（BiGAN-QP）におけるGAN-QPの頑健性とスケーラビリティを検証すること。

提案手法

元の確率発散定義に依存せず、双対空間に直接定義される新しい発散、QP-divを提案する。
二次罰則項を用いたmax-minゲームとして識別器損失を定式化することで、GAN-QPフレームワークを構築する：$ \text{max}_T \text{E}[T(x_r) - T(x_f) - \frac{(T(x_r) - T(x_f))^2}{2\tau d(x_r, x_f)}] $、ここで$ \tau $は学習可能または適応可能なハイパーパrameterである。
実画像と偽画像の間の距離尺度$ d(x_r, x_f) $（L1またはL2ノルム）を用い、罰則項をスケーリングする。
単一入力識別器$ T(x) $を採用し、実画像と偽画像の入力を同時に与える必要がないことを示した。
解像度に逆比例するハイパーパrameter $ \tau $ を導入：L1の場合$ \tau = 10 / (w h c) $、L2の場合$ \tau = 10 / \text{sqrt}(w h c) $。
生成器とエンコーダの両方の再構成損失を組み込んだ、BiGANの変種（BiGAN-QP）に対しても同じ訓練手順を適用した。

実験結果

リサーチクエスチョン

RQ11リプシッツ制約や勾配罰則に依存せず、安定的かつ効果的なGANフレームワークを設計できるか？
RQ2元の発散から導出せず、双対空間に直接新しい確率発散を定義・使用することは可能か？
RQ3提案されたQP-div発散は、高次元または重複領域が小さいデータ設定においても、GANにおける勾配消失を解消できるか？
RQ4FIDスコア、訓練安定性、推論速度の観点から、WGAN-GP、WGAN-SN、SGAN-SNと比較してGAN-QPはどのように差をつけるか？
RQ5GAN-QPは、256×256や512×512といった高解像度に一般化可能か、またBiGANのような双方向モデルへ拡張可能か？

主な発見

256×256 CIFAR-10において、GAN-QPは最終的なFIDを22.7に達成し、SGAN-SN（27.9）やWGAN-GP（55.5）を上回り、優れたサンプル品質を示した。
128×128解像度では、GAN-QP-L1とGAN-QP-L2がそれぞれ45.0および44.7のFIDスコアを記録し、比較対象のすべての手法の中で2番目に高い性能を示した。
距離尺度の選択に対して頑健であり、L1とL2ノルムの間で顕著な性能差が認められなかった。
勾配罰則やスペクトル正規化を一切使用せず、安定した訓練を維持でき、訓練速度も他の手法と同等（ベースラインと1xの速度比）であった。
BiGAN-QPは256×256解像度で実画像を良好に再構成でき、本手法の非一意な表現学習への応用可能性を裏付けた。
512×512解像度では、1枚のGTX 1080Tiで2日間の訓練を経て最終FIDが26.64に達し、高解像度生成へのスケーラビリティを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。