Skip to main content
QUICK REVIEW

[論文レビュー] Conditional Generative Adversarial Nets

Mehdi Mirza, Simon Osindero|arXiv (Cornell University)|Nov 6, 2014
Generative Adversarial Networks and Image Synthesis参考文献 15被引用数 8,878
ひとこと要約

条件付きGANを、生成器と識別器の両方に条件情報を入力することで導入し、ラベルで条件付けしたMNIST数字生成とMIR Flickrデータでのマルチモーダルタグ付けを実証する。

ABSTRACT

Generative Adversarial Nets [8] were recently introduced as a novel way to train generative models. In this work we introduce the conditional version of generative adversarial nets, which can be constructed by simply feeding the data, y, we wish to condition on to both the generator and discriminator. We show that this model can generate MNIST digits conditioned on class labels. We also illustrate how this model could be used to learn a multi-modal model, and provide preliminary examples of an application to image tagging in which we demonstrate how this approach can generate descriptive tags which are not part of training labels.

研究の動機と目的

  • GANにおけるデータ生成の制御のための条件付けの動機づけと、マルチモーダルモデリングの探求。
  • 生成を導くために補助情報 y を G と D に組み込む方法を示す。
  • クラスラベルで条件付けされたMNISTの数字に対する条件付きGANをデモンストレーション。
  • 画像特徴とテキストタグを用いたマルチモーダル学習のための条件付きGANをデモンストレーション。

提案手法

  • 補助情報 y で生成器と識別器の両方を条件付けることでGANを拡張する。
  • 生成器内で z(ノイズ)と y を結合した共通の隠れ表現に組み合わせる。
  • 識別器には x と y を入力して、データと生成サンプルの確率を推定する。
  • Train with a two-player minimax objective V(D,G) = E[x~pdata] [log D(x|y)] + E[z~pz] [log(1 - D(G(z|y)))]
  • ReLU および maxout ユニットをネットワーク構造に用い、最終出力前の入力を共有隠れ表現へ写像する。
  • MNIST に対して Parzen ウィンドウ対数尤度推定で評価し、MIR Flickr でタグベクトルの条件付き生成を伴うマルチモーダルタグ付けを実施する。

実験結果

リサーチクエスチョン

  • RQ1補助情報 y でGANを条件付けると、生成プロセスがその条件に対応するデータを生成するように導くことができるか?
  • RQ2条件付きGANは画像特徴とテキスト表現からマルチモーダルまたは記述的なタグ分布を学習できるか?
  • RQ3MNIST におけるサンプル品質と対数尤度推定に、条件付けが無条件GANと比べてどう影響するか?

主な発見

ModelMNIST
DBN138±2
Stacked CAE121±1.6
Deep GSN214±1.1
Adversarial nets225±2
Conditional adversarial nets132±1.8
  • 条件付きGANは、クラスラベル(one-hot にエンコードされた)で条件付けられたMNISTの数字を生成できる。
  • MNIST に対する Parzen ウィンドウ対数尤度は、報告された設定で条件付きネットが MNIST で 132±1.8、標準的な対向ネットが 225±2 を達成することを示している。
  • このモデルは、画像特徴と言語表現を条件としてタグベクトルを生成することで、予備的なマルチモーダル学習能力を示す。
  • MIR Flickr の例に対して生成されたタグは、画像内容に整合したもっともらしい多様な説明を示す。
  • 著者らは本研究の結果を概念実証として提示し、非条件GANと同等またはそれを上回るようにさらなるハイパーパラメータ調整の可能性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。