QUICK REVIEW

[論文レビュー] CVAE-GAN: Fine-Grained Image Generation through Asymmetric Training

Jianmin Bao, Dong Chen|arXiv (Cornell University)|Mar 29, 2017

Generative Adversarial Networks and Image Synthesis参考文献 40被引用数 61

ひとこと要約

CVAE-GAN は、非対称平均特徴量マッチングを用いてトレーニングを安定化し、カテゴリラベルに条件付けされた多様で細かな画像を生成する変分オートエンコーダとGANを組み合わせる。

ABSTRACT

We present variational generative adversarial networks, a general learning framework that combines a variational auto-encoder with a generative adversarial network, for synthesizing images in fine-grained categories, such as faces of a specific person or objects in a category. Our approach models an image as a composition of label and latent attributes in a probabilistic model. By varying the fine-grained category label fed into the resulting generative model, we can generate images in a specific category with randomly drawn values on a latent attribute vector. Our approach has two novel aspects. First, we adopt a cross entropy loss for the discriminative and classifier network, but a mean discrepancy objective for the generative network. This kind of asymmetric loss function makes the GAN training more stable. Second, we adopt an encoder network to learn the relationship between the latent space and the real image space, and use pairwise feature matching to keep the structure of generated images. We experiment with natural images of faces, flowers, and birds, and demonstrate that the proposed models are capable of generating realistic and diverse samples with fine-grained category labels. We further show that our models can be applied to other tasks, such as image inpainting, super-resolution, and data augmentation for training better face recognition models.

研究の動機と目的

特定のカテゴリ（例: 身元、種）に対して高品質で細かな画像を生成できる生成モデルの動機づけと開発。
GAN の訓練を安定化しモード崩壊を緩和するための非対称な訓練目的を活用。
エンコーダを介したペアワイズ特徴量マッチングを導入して潜在空間と画像空間を関連付け、構造と多様性を保持する。
認識タスクのための画像生成、インペインティング、超解像、データ拡張への適用性を示す。

提案手法

4-ネットワークCVAE-GAN を提案: エンコーダ E、生成器 G、識別器 D、分類器 C。
カテゴリ c (P(z|x,c)) の条件付けと生成 P(x|z,c) を用いた CVAE に基づく潜在モデリングを採用。
訓練を安定化させるため、D および C の特徴レベルでの平均特徴量マッチング損失を適用し、L_GD、L_GC とピクセル/特徴再構成の L2 損失 L_G を導入。
リアル画像を潜在 z にマッピングする KL 発散損失 L_KL を持つエンコーダを組み込み、ペアワイズ特徴量マッチング (x -> z) と多様性を可能に。
G に対する非対称目的を採用し、従来の GAN 損失ではなく平均特徴距離を最適化することで勾配挙動を改善しモード崩壊を抑制。
結合目的 L = L_D + L_C + λ1 L_KL + λ2 L_G + λ3 L_GD + λ4 L_GC によりエンドツーエンドで訓練。

実験結果

リサーチクエスチョン

RQ1CVAE-GAN フレームワークは特定のカテゴリラベルに条件付けされた高品質で多様な細かな画像を生成できるか。
RQ2非対称な平均特徴量マッチングは GAN 訓練を安定化させ、従来の GAN と比較してモード崩壊を低減できるか。
RQ3エンコーダとペアワイズ特徴量マッチングを導入することで生成サンプル間で物体の同一性とシーン構造を保持できるか。
RQ4インペインティング、モーフィング、認識システムのデータ拡張など関連タスクへ効果的に適用できるか。

主な発見

生成画像は 128x128 の解像度で、細粒度カテゴリ内で現実的かつ多様性がある（顔、花、鳥）。
CVAE-GAN と FM-CGAN は、定性的および定量的テストで CVAE および CGAN のベースラインより識別性とリアリズムが高い。
生成顔サンプルの Top-1 分類精度は CVAE-GAN が最高で 97.78%、実データが 99.61%、CVAE が 8.09%、CGAN が 61.97%、FM-CGAN が 79.76%。
リアリズムスコア（高いほど良い）は CVAE-GAN が ~19.03 で、実データの 20.85 に近く、CGAN および FM-CGAN より上回る。
平均特徴量マッチングは GAN の訓練を安定化させ、WGAN のような重みクリッピングを用いずモード崩壊を緩和する。
エンコーダ誘導の潜在空間マッピングとペアワイズ特徴量マッチングは、生成サンプルの物体構造と同一性を保持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。