Skip to main content
QUICK REVIEW

[論文レビュー] Sinkhorn AutoEncoders

Giorgio Patrini, Rianne van den Berg|arXiv (Cornell University)|Oct 2, 2018
Generative Adversarial Networks and Image Synthesis参考文献 34被引用数 30
ひとこと要約

この論文は、再構成誤差と潜在空間における集約事後分布と事前分布のp-ウォッシャー施距離を最適化することで、データ分布と生成器分布の間のp-ウォッシャー施距離を最小化する、尤度フリーな生成モデルであるSinkhorn AutoEncoders (SAE)を紹介する。SAEはバックプロパゲーションを通じてアルゴリズムに差分可能であるSinkhorn反復を用いて最適輸送を近似し、再パラメータリゼーションを必要とせず、任意の距離空間や事前分布においてエンドツーエンドの学習が可能であり、収束性と生成器容量の一致に関する理論的保証を有する。

ABSTRACT

Optimal transport offers an alternative to maximum likelihood for learning generative autoencoding models. We show that minimizing the p-Wasserstein distance between the generator and the true data distribution is equivalent to the unconstrained min-min optimization of the p-Wasserstein distance between the encoder aggregated posterior and the prior in latent space, plus a reconstruction error. We also identify the role of its trade-off hyperparameter as the capacity of the generator: its Lipschitz constant. Moreover, we prove that optimizing the encoder over any class of universal approximators, such as deterministic neural networks, is enough to come arbitrarily close to the optimum. We therefore advertise this framework, which holds for any metric space and prior, as a sweet-spot of current generative autoencoding objectives. We then introduce the Sinkhorn auto-encoder (SAE), which approximates and minimizes the p-Wasserstein distance in latent space via backprogation through the Sinkhorn algorithm. SAE directly works on samples, i.e. it models the aggregated posterior as an implicit distribution, with no need for a reparameterization trick for gradients estimations. SAE is thus able to work with different metric spaces and priors with minimal adaptations. We demonstrate the flexibility of SAE on latent spaces with different geometries and priors and compare with other methods on benchmark data sets.

研究の動機と目的

  • 変分推論や最尤推定の制限を回避する、柔軟で尤度フリーな生成的自動符号化フレームワークの開発。
  • データと生成器の間のp-ウォッシャー施距離を最小化することと、再構成誤差と事前分布への潜在p-ウォッシャー施距離を最適化することの等価性の形式的確立。
  • 交差項ハイパーパrameter γ を生成器のリプシッツ定数として特定し、モデル容量と結びつける。
  • 決定的ニューラルネットワークをエンコーダとして用いることで、最適解を任意に近づけることができることを示し、潜在空間における普遍近似を可能にする。
  • 再パラメータリゼーションを必要とせず、Sinkhornアルゴリズムのバックプロパゲーションにより、任意の距離空間や事前分布における学習を可能にする。

提案手法

  • p-ウォッシャー施距離の最小化を、再構成誤差と潜在空間における集約事後分布と事前分布のp-ウォッシャー施距離の両方の最適化という、制約なしのmin-min最適化問題として定式化する。
  • 差分可能Sinkhorn反復を用いて潜在p-ウォッシャー施距離を近似するSinkhorn AutoEncoder (SAE) を導入し、バックプロパゲーションによる勾配最適化を可能にする。
  • 集約事後分布をサンプル上の暗黙的分布として扱い、再パラメータリゼーションや明示的密度推定の必要性を排除する。
  • ガウス分布以外の非ガウス分布や、ハイパースフィア上の一様分布などの構造的事前分布を含む、任意の距離空間や事前分布をサポートする。
  • モンジュ=カンタロヴィッチ双対性とデータ処理不等式を用いて、元の目的関数の妥当な代理として潜在空間におけるp-ウォッシャー施距離を用いる根拠を示す。
  • エンコーダと生成器にニューラルネットワークをエンドツーエンドで実装し、反復的射影ステップが差分可能であるSinkhornアルゴリズムを活用する。

実験結果

リサーチクエスチョン

  • RQ1データと生成器の間のp-ウォッシャー施距離を最小化することは、再構成誤差と潜在分布距離の両方の制約なし最適化として再定式化可能か?
  • RQ2生成器の容量とリプシッツ連続性の文脈において、交差項ハイパーパrameter γ の理論的役割は何か?
  • RQ3決定的ニューラルネットワークをエンコーダとして用いることで、潜在空間における最適解に任意に近づけることができるか?
  • RQ4密度モデルや再パラメータリゼーションを必要とせず、Sinkhornアルゴリズムが潜在空間における最適輸送の効果的で差分可能な最適化を可能にするか?
  • RQ5とりわけ非ガウス的または構造的事前分布を用いる場合、生成サンプルの分離性と品質にどのような影響を与えるか?

主な発見

  • 弱い正則性条件の下で、データ分布と生成器分布の間のp-ウォッシャー施距離は、再構成誤差と潜在空間における集約事後分布と事前分布のp-ウォッシャー施距離の最小化と等価である。
  • 目的関数における交差項ハイパーパrameter γ は、生成器のリプシッツ定数に正確に一致し、モデル容量を制御する役割を有する、理論的根拠のある解釈を提供する。
  • 任意の普遍近似器クラス(例えば、決定的ニューラルネットワーク)に対してエンコーダを最適化することで、モデルは最適解に任意に近づけることができ、標準的な深層ネットワークの使用を正当化する。
  • MNISTおよびCelebAにおいて、VAE、WAE、HVAEなどの競合手法と同等またはそれ以上のFIDスコアを達成する。特に、ディリクレ分布やハイパースフィア上の一様分布といった非ガウス的事前分布を用いる場合に顕著である。
  • 高次元ガウス事前分布では、SAEとHAEは質量が細い円環上に集中するためモード崩壊を示すが、W2GAEとSWAEはこの問題を回避する。これは事前分布の幾何構造に対する感受性を示唆する。
  • 16次元のDirichlet(1/5)事前分布を用いる場合、SAEは各数字が頂点に対応する構造的潜在空間を学習し、明確な補間と頂点からの高品質なサンプル生成を可能にするが、低確率領域での不一致は依然として存在する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。