[論文レビュー] Least Squares Generative Adversarial Networks
LSGANsはGANのシグモイド交差エントロピー損失を識別器の最小二乗損失に置換し、より高品質な画像と安定した訓練をもたらします。また、ピアソンカイ二乗距離発散と関連しています。
Unsupervised learning with generative adversarial networks (GANs) has proven hugely successful. Regular GANs hypothesize the discriminator as a classifier with the sigmoid cross entropy loss function. However, we found that this loss function may lead to the vanishing gradients problem during the learning process. To overcome such a problem, we propose in this paper the Least Squares Generative Adversarial Networks (LSGANs) which adopt the least squares loss function for the discriminator. We show that minimizing the objective function of LSGAN yields minimizing the Pearson $χ^2$ divergence. There are two benefits of LSGANs over regular GANs. First, LSGANs are able to generate higher quality images than regular GANs. Second, LSGANs perform more stable during the learning process. We evaluate LSGANs on five scene datasets and the experimental results show that the images generated by LSGANs are of better quality than the ones generated by regular GANs. We also conduct two comparison experiments between LSGANs and regular GANs to illustrate the stability of LSGANs.
研究の動機と目的
- ジェネレータ更新時の通常のGANにおける勾配の消失問題に対処する。
- GANの識別器のために最小二乗損失の定式化を提案する。
- LSGANの目的が特定のパラメータ選択の下でピアソンカイ二乗発散を最小化することに対応することを示す。
- 画像生成と多クラスタスク(例:中国語文字)のための二つのネットワークアーキテクチャを提示する。
- 通常のGANよりもデータセット全体でサンプル品質と安定性を向上させることを示す。
提案手法
- 識別器に対してa-b符号化スキームを用いた最小二乗損失を採用する:Dの訓練は1/2E[(D(x)-b)^2] + 1/2E[(D(G(z))-a)^2]を最小化する。
- ジェネレータの訓練は1/2E[(D(G(z))-c)^2]を最小化し、生成サンプルを目標値cへ押し付ける。
- b-c=1およびb-a=2とすると、目的関数はp_data+p_gと2p_gとの間のピアソンカイ二乗発散に対応することを示す。
- 画像生成用の112x112モデルと、多クラス(例:中国語文字)向けの条件付きLSGANという二つのモデルアーキテクチャを提供する。
- パラメータ選択のオプション(例:a=-1, b=1, c=0、または0-1符号化を伴うa,b,c)とそれらの実践的な影響を説明する。
実験結果
リサーチクエスチョン
- RQ1シグモイド交差エントロピーを用いたGAN識別器を最小二乗損失に置換することで、サンプル品質は改善されるのか。
- RQ2LSGAN訓練はデータセット全体でより安定し、モード崩壊の影響が小さくなるか。
- RQ3LSGANの目的はf-ダivergence、特にピアソンカイ二乗発散とどのように関連するか。
- RQ4LSGANを多クラスまたは大規模ラベル問題の条件付き設定へ拡張できるか。
主な発見
- LSGANは複数のLSUNシーンデータセットで通常のGANより高品質な画像を生成する。
- LSGANは訓練の安定性が高く、勾配消失の影響を受けにくい。
- 適切な設定と最適化子を用いるとバッチ正規化なしでも収束可能。
- ガウス混合の実験では通常のGANがモード崩壊を起こす一方、LSGANは全分布を学習する。
- 条件付きLSGANは3740クラスにわたる読み取り可能な中国語文字を生成できる。
- 定量的分析は指定されたパラメータ選択下でLSGANの目的がピアソンカイ二乗発散を最小化することに結びつく。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。