QUICK REVIEW

[論文レビュー] Generative Moment Matching Networks

Yujia Li, Kevin Swersky|arXiv (Cornell University)|Feb 10, 2015

Generative Adversarial Networks and Image Synthesis参考文献 48被引用数 379

ひとこと要約

本論文では、生成対向ネットワーク（GAN）の複雑なミニマックス最適化を回避するため、最大平均差分（MMD）を学習目的として用い、1回のフォワードパスでサンプルを生成する深層生成モデルである生成的モーメントマッチングネットワーク（GMMN）を提案する。この手法は、MNISTおよびトロント・フェイス・データベースにおいて、特に自己符号化器を組み合わせることでサンプル品質を向上させ、データ多様体を分離可能にする点で最先端の性能を達成する。

ABSTRACT

We consider the problem of learning deep generative models from data. We formulate a method that generates an independent sample via a single feedforward pass through a multilayer perceptron, as in the recently proposed generative adversarial networks (Goodfellow et al., 2014). Training a generative adversarial network, however, requires careful optimization of a difficult minimax program. Instead, we utilize a technique from statistical hypothesis testing known as maximum mean discrepancy (MMD), which leads to a simple objective that can be interpreted as matching all orders of statistics between a dataset and samples from the model, and can be trained by backpropagation. We further boost the performance of this approach by combining our generative network with an auto-encoder network, using MMD to learn to generate codes that can then be decoded to produce samples. We show that the combination of these techniques yields excellent generative models compared to baseline approaches as measured on MNIST and the Toronto Face Database.

研究の動機と目的

生成的対向ネットワーク（GAN）の不安定な学習ダイナミクスを回避するシンプルでスケーラブルな深層生成モデルの開発。
データと生成されたサンプルのすべての統計的モーメントを一致させるために、最大平均差分（MMD）を学習目的として活用すること。
自己符号化器を組み合わせることで、コード空間における分離可能な表現を学習し、サンプル品質を向上させること。
高精度な生成を維持しながら、効率的な1回パスによるサンプリングを可能にすること。

提案手法

実際のデータ分布とモデルが生成する分布の間の発散測度としてMMDを用い、再生核ヒルバート空間における平均埋め込みの二乗距離として定義される。
ガウスカーネルを用いたカーネルトリックにより、高次モーメントを明示的に計算することなく、MMDを効率的に計算する。
ミニバッチ確率的勾配降下法を用いて、MMD損失を最小化するように生成ネットワークをバックプロパゲーションで訓練する。
GMMNを自己符号化器と組み合わせる。GMMNは潜在空間におけるコードを生成し、その後でデコーダーを用いてデータサンプルを再構築する。
普遍的カーネル（例：ガウスカーネル）を用いることで、真の分布とモデル分布が極限で等しい場合に限りMMDがゼロになるように保証する。
事前学習済み自己符号化器のコード空間にMMD目的関数を適用し、意味的で分離可能な潜在多様体を学習可能にする。

実験結果

リサーチクエスチョン

RQ1MMDは、敵対的学習を必要とせず、GANの代替として安定的かつスケーラブルな深層生成モデルの学習に適しているだろうか？
RQ2MMDに基づく学習は、MNISTやトロント・フェイス・データベースのような画像データセットにおいて、現実的なサンプルをどれほど効果的に生成できるだろうか？
RQ3GMMNを自己符号化器と組み合わせることで、サンプル品質の向上とデータ多様体の分離性が向上するだろうか？
RQ4自己符号化器の潜在空間でMMDに基づく学習を実施することで、生データ空間での学習よりも一般化性能が向上するだろうか？
RQ5ミニバッチ確率的勾配降下法を用いることで、MMD目的関数は大規模データセットに対しても効率的にスケーリング可能だろうか？

主な発見

GMMNモデルは、ベースライン手法（GANを含む）と比較して、MNISTおよびトロント・フェイス・データベースにおいて優れたサンプル品質を達成した。
GMMN+AEの変種は、潜在コード空間における線形補間によって滑らかで連続的なデータ多様体を学習しており、それが現実的な画像遷移を生み出していることが実証された。
GMMN+AEモデルが生成するサンプルは、トロント・フェイス・データベースにおいて、ポーズ、表情、照明、性別、顔の毛量の変化を現実的に再現している。
MMDを学習目的として用いることで、敵対的最適化を必要とせず、安定的でエンドツーエンドのバックプロパゲーションに基づく学習が可能になった。
ミニバッチ確率的勾配降下法とカーネルトリックの活用により、大規模データセットへのスケーリングが効率的に行えるようになった。
MMDによるすべての統計的モーメントの一致は、尤度最大化を明示的に行わない状況でも、高品質な生成を実現できることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。