Skip to main content
QUICK REVIEW

[论文解读] Hyperspherical Variational Auto-Encoders

Tim R. Davidson, Luca Falorsi|arXiv (Cornell University)|Apr 3, 2018
Generative Adversarial Networks and Image Synthesis参考文献 21被引用 104
一句话总结

这篇论文用 von Mises-Fisher 分布替代 VAE 的高斯先验/后验,以在超球面潜在空间中建模数据,从而更好地处理具有球面结构的数据,并提升如 MNIST 重建/半监督学习以及图的连边预测等任务。

ABSTRACT

The Variational Auto-Encoder (VAE) is one of the most used unsupervised machine learning models. But although the default choice of a Gaussian distribution for both the prior and posterior represents a mathematically convenient distribution often leading to competitive results, we show that this parameterization fails to model data with a latent hyperspherical structure. To address this issue we propose using a von Mises-Fisher (vMF) distribution instead, leading to a hyperspherical latent space. Through a series of experiments we show how such a hyperspherical VAE, or $\mathcal{S}$-VAE, is more suitable for capturing data with a hyperspherical latent structure, while outperforming a normal, $\mathcal{N}$-VAE, in low dimensions on other data types. Code at http://github.com/nicola-decao/s-vae-tf and https://github.com/nicola-decao/s-vae-pytorch

研究动机与目标

  • 为具有超球面潜在结构的数据的高斯先验所带来的限制提供动机与解决方案。
  • 引入使用 von Mises-Fisher 分布的超球面 VAE(S-VAE)。
  • 开发适用于 vMF 的可微分再参数化与采样方案以实现训练。
  • 将 S-VAE 与 N-VAE 在 MNIST 与基于图的连边预测任务上进行比较。
  • 在低维潜在空间中展示改进的聚类、半监督性能和图嵌入。

提出的方法

  • 将 von Mises-Fisher (vMF) 分布作为超球面上的潜在先验/后验。
  • 推导 vMF 与球面均匀分布之间的 KL 散度,指出其对聚集参数 κ 的依赖,而非均值 μ。
  • 提供 vMF 的接受-拒绝采样过程,并利用缩放 Bessel 函数给出 κ 的显式梯度。
  • 通过两步变换将再参数化技巧扩展到拒绝采样分布(算法 1 及后续引理)。
  • 将 S-VAE 应用于恢复超球面潜在结构,进行无监督和半监督的 MNIST 实验,并在基于 VGAE 的引用网络连边预测上进行评估。

实验结果

研究问题

  • RQ1相比高斯潜在空间,超球面潜在空间能否更好地建模具有固有球面结构的数据?
  • RQ2如何将再参数化技巧扩展到 von Mises-Fisher 后验以实现高效训练?
  • RQ3在低维潜在空间中,用 vMF 替换高斯分布是否能提升重建、聚类和下游任务的表现?
  • RQ4潜在拓扑对半监督学习和基于图的连边预测有何影响?
  • RQ5与 N-VAE 相比,S-VAE 在 MNIST 与引用网络连边预测等 ML 任务中的表现如何?

主要发现

  • S-VAE 在合成数据和 MNIST 场景中比 N-VAE 更好地恢复超球面潜在结构,尤其在低维度下。
  • 在 MNIST 的重建任务中,S-VAE 实现了更低的负重构误差和更高的 ELBO(在低维时的 LL)。
  • 半监督的 MNIST 显示 S-VAE 与 S+N 变体在多个潜在维度下的准确率高于各自的 N 对应方法。
  • 在 Cora、Citeseer 和 PubMed 的连边预测任务中,S-VGAE 提升了 AUC 和 AP 相对于 N-VGAE。
  • 在超球面上的均匀先验避免了原点吸引,支持更均匀的潜在空间使用,从而有助于聚类与生成。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。