Skip to main content
QUICK REVIEW

[论文解读] Sliced-Wasserstein Autoencoder: An Embarrassingly Simple Generative Model

Soheil Kolouri, Pope, Phillip E.|arXiv (Cornell University)|Apr 5, 2018
Generative Adversarial Networks and Image Synthesis参考文献 22被引用 62
一句话总结

SWAE 通过使用切片-Wasserstein 距离将潜在编码分布与可抽样先验匹配,来正则化自编码器,避免对抗训练,同时获得类似 Wasserstein 的好处。

ABSTRACT

In this paper we study generative modeling via autoencoders while using the elegant geometric properties of the optimal transport (OT) problem and the Wasserstein distances. We introduce Sliced-Wasserstein Autoencoders (SWAE), which are generative models that enable one to shape the distribution of the latent space into any samplable probability distribution without the need for training an adversarial network or defining a closed-form for the distribution. In short, we regularize the autoencoder loss with the sliced-Wasserstein distance between the distribution of the encoded training samples and a predefined samplable distribution. We show that the proposed formulation has an efficient numerical solution that provides similar capabilities to Wasserstein Autoencoders (WAE) and Variational Autoencoders (VAE), while benefiting from an embarrassingly simple implementation.

研究动机与目标

  • 以最优传输和 Wasserstein 距离为基础,推动可扩展的自编码器生成建模。
  • 提出一个新的自编码器框架(SWAE),在不进行对抗训练的情况下强制执行一个预定义的、可抽样的潜在分布。
  • 开发一个简单、高效的数值方案,在编码器–解码器学习中计算切片-Wasserstein 正则化
  • 在图像数据集(MNIST、CelebA)上展示 SWAE,并将定性和嵌入空间特性与其他生成模型进行比较。

提出的方法

  • 将 SWAE 表述为最小化一个组合目标:pX 到 pY 的 Wasserstein 项加上 lambda 乘以 SWc(pZ, qZ)。
  • 使用确定性编码器 phi 和解码器 psi 将 X 映射到潜在 Z 并再映射回来,其中 pZ 由 phi 决定。
  • 使用切片-Wasserstein 距离 SWc 测量 pZ 与 qZ 之间的差异,避免对抗网络。
  • 通过投影到单位球面上的一组有限随机方向 theta,并计算一维 Wasserstein 距离来近似 SWc。
  • 通过对经验样本排序来计算一维 Wasserstein 距离,从而实现高效的基于 SGD 的优化。
  • 提供一个实用算法(算法 1),其在编码/解码更新与通过随机投影进行潜在空间匹配之间交替。

实验结果

研究问题

  • RQ1在自编码器的潜在空间中而不进行对抗训练,如何实现一个灵活且可抽样的先验?
  • RQ2切片-Wasserstein 距离是否提供一个实用且有效的代理,用于在编码器空间将 pZ 与 qZ 匹配?
  • RQ3SWAE 是否能以更简单的实现达到与 Wasserstein Autoencoder(WAE)和 VAE 相当的生成和重构质量?
  • RQ4在 MNIST 上,当 qZ 选择为特定分布(如环形、圆形、均匀)时,嵌入空间会出现哪些特性?
  • RQ5增加潜在维数如何影响对更复杂数据集如 CelebA 的重构和潜在空间结构?

主要发现

  • SWAE 成功地将潜在编码分布塑造成预定义的可抽样先验(如环形、均匀、圆形、碗状)在 MNIST 上,同时保留解码性。
  • 在 MNIST 上,编码器嵌入空间与所选的 qZ 分布高度一致,且可被训练好的解码器解码。
  • 在 CelebA 上,使用更高维的嵌入(128D)以更好地捕捉数据变异性,且在编码空间的线性插值能够产生连贯的解码输出。
  • SWAE 在定性方面与依赖对抗训练的方法相媲美,同时避免了潜在空间中的对抗优化。
  • 可视化实验在 qZ 为均匀且嵌入维数足够(如 128D)时,展示了嵌入空间的凸性样特性。
  • 所提出的方法提供了基于一维排序和随机投影的高效数值方案,避免了成本高昂的对抗网络。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。