Skip to main content
QUICK REVIEW

[論文レビュー] Wasserstein Auto-Encoders

Ilya Tolstikhin, Olivier Bousquet|arXiv (Cornell University)|Nov 5, 2017
Generative Adversarial Networks and Image Synthesis参考文献 32被引用数 192
ひとこと要約

Wasserstein Auto-Encoders (WAE) は、エンコーダ-デコーダ框架を用いてデータ分布とモデル分布間の Wasserstein 距離を最小化し、GANベースまたは MMD ベースのペナルティで encoded latent distribution を prior に合わせ、安定した学習と VAEs よりのサンプル品質の改善をもたらします。

ABSTRACT

We propose the Wasserstein Auto-Encoder (WAE)---a new algorithm for building a generative model of the data distribution. WAE minimizes a penalized form of the Wasserstein distance between the model distribution and the target distribution, which leads to a different regularizer than the one used by the Variational Auto-Encoder (VAE). This regularizer encourages the encoded training distribution to match the prior. We compare our algorithm with several other techniques and show that it is a generalization of adversarial auto-encoders (AAE). Our experiments show that WAE shares many of the properties of VAEs (stable training, encoder-decoder architecture, nice latent manifold structure) while generating samples of better quality, as measured by the FID score.

研究の動機と目的

  • 最適輸送に根ざした安定した学習と解釈可能な潜在モ manifolds を得る生成モデリングフレームワークを動機づける。
  • 真のデータ分布とモデル分布間の Wasserstein 距離を最小化する新しいオートエン コーダ objective を開発する。
  • Encoded latent distribution を prior に一致させる二つの正則化戦略を提案する:GAN ベース (WAE-GAN) および MMD ベース (WAE-MMD)。
  • WAEs は VAEs に似た利点を維持しつつ MNIST と CelebA でサンプル品質を向上させることを実証する。

提案手法

  • Wasserstein auto-encoder objective を、確率的エンコーダ Q(Z|X) の期待再構成コストと、QZ を prior PZ に合わせるペナルティ(D_Z(QZ, PZ))の最小化として定式化する。
  • OT コストの primal 形を用い、最適輸送結合のためには潜在周辺分布 QZ が prior PZ に等しくなることを導出する。
  • 具体的な二つのペナルティを提供する: (a) 潜在空間での対向訓練を用いた GAN ベースの D_Z (WAE-GAN)、(b) 特性カーネルを用いた最大平均距離 (MMD) (WAE-MMD)。
  • Q と G をパラメータ化するために、決定論的エンコーダまたは確率的エンコーダを選択し、深層ネットワークを用いて表現する。
  • 二乗コスト c(x,y)=||x−y||^2 を用いて MNIST と CelebA で実証的評価を行い、VAE と比較してサンプル品質が向上することを示す。

実験結果

リサーチクエスチョン

  • RQ1データと生成分布間の Wasserstein 距離を tractable に最小化する規正化オートエンコーダを構築できるか?
  • RQ2潜在符号化を事前分布に合わせるにはどのように正則化し、GAN ベースと MMD ベースのペナルティのトレードオフは何か?
  • RQ3WAEs はトレーニングを安定させ、潜在モ manifolds を維持しつつ VAEs よりサンプル品質を向上させるか?
  • RQ4標準ベンチマーク(MNIST、CelebA)で再構成、潜在構造、サンプルリアリズムの観点から WAEs はどのようにパフォーマンスを発揮するか?

主な発見

  • WAEs は対向的オートエンコーダを一般化し、任意のコスト c および任意の潜在空間の不一致 D_Z が QZ と PZ の間にあっても適用可能である。
  • WAE-GAN および WAE-MMD は安定した学習と潜在空間の正則化を達成し、MNIST と CelebA で VAE より高品質なサンプルを生成する。
  • WAE のサンプルは GAN 品質に近づきつつ、エンコーダ–デコーダのアーキテクチャと VAE に特徴的な潜在モ manifolds 構造を維持する。
  • WAE-MMD は安定した学習と競争力のあるサンプル品質を示し、WAE-GAN は時に CelebA でサンプルリアリズムを上回る。
  • CelebA での定量的結果は、報告された変種の中で最良の Fréchet Inception Distance (FID) を WAE-GAN が達成することを示し、WAE-MMD も VAE を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。