[论文解读] Sinkhorn AutoEncoders
本文提出Sinkhorn自编码器(SAE),一种无需似然的生成模型,通过优化重构误差以及潜在空间中聚合后验与先验之间的p- Wasserstein距离,最小化数据分布与生成器分布之间的p-Wasserstein距离。SAE使用可微分Sinkhorn迭代,通过反向传播近似最优传输,实现在任意度量空间和先验分布上的端到端训练,无需重参数化,并具备收敛性和生成器容量匹配的理论保证。
Optimal transport offers an alternative to maximum likelihood for learning generative autoencoding models. We show that minimizing the p-Wasserstein distance between the generator and the true data distribution is equivalent to the unconstrained min-min optimization of the p-Wasserstein distance between the encoder aggregated posterior and the prior in latent space, plus a reconstruction error. We also identify the role of its trade-off hyperparameter as the capacity of the generator: its Lipschitz constant. Moreover, we prove that optimizing the encoder over any class of universal approximators, such as deterministic neural networks, is enough to come arbitrarily close to the optimum. We therefore advertise this framework, which holds for any metric space and prior, as a sweet-spot of current generative autoencoding objectives. We then introduce the Sinkhorn auto-encoder (SAE), which approximates and minimizes the p-Wasserstein distance in latent space via backprogation through the Sinkhorn algorithm. SAE directly works on samples, i.e. it models the aggregated posterior as an implicit distribution, with no need for a reparameterization trick for gradients estimations. SAE is thus able to work with different metric spaces and priors with minimal adaptations. We demonstrate the flexibility of SAE on latent spaces with different geometries and priors and compare with other methods on benchmark data sets.
研究动机与目标
- 开发一种灵活的、无需似然的生成自编码框架,避免变分推断和最大似然方法的局限性。
- 形式化最小化数据与生成器之间p-Wasserstein距离与优化重构误差加上潜在空间中后验与先验之间p-Wasserstein距离之间的等价性。
- 确立超参数γ作为生成器的Lipschitz常数,将其与模型容量关联。
- 证明确定性神经网络作为编码器可任意接近最优解,从而在潜在空间中实现通用近似。
- 通过在Sinkhorn算法中反向传播,无需重参数化,实现在任意度量空间和先验分布上的训练。
提出的方法
- 该方法将p-Wasserstein距离最小化表述为对重构误差和潜在空间中聚合后验与先验之间p-Wasserstein距离的无约束极小-极小优化问题。
- 提出Sinkhorn自编码器(SAE),通过可微分Sinkhorn迭代近似潜在空间中的p-Wasserstein距离,实现通过反向传播的梯度优化。
- 该算法将聚合后设视为样本上的隐式分布,无需重参数化或显式密度估计。
- 该框架支持任意度量空间和先验分布,包括非高斯分布和结构化先验(如超球面上的狄利克雷分布和均匀分布)。
- 利用Monge-Kantorovich对偶性和数据处理不等式,证明在潜在空间中使用p-Wasserstein距离作为原始目标的合理代理。
- 通过神经网络端到端实现编码器和生成器,且Sinkhorn算法通过其迭代投影步骤实现可微分。
实验结果
研究问题
- RQ1能否将最小化数据与生成器之间p-Wasserstein距离重新表述为对重构误差和潜在分布距离的无约束优化?
- RQ2在生成器容量与Lipschitz连续性背景下,权衡超参数γ的理论作用是什么?
- RQ3能否使用确定性神经网络作为编码器,在潜在空间中任意接近最优解?
- RQ4Sinkhorn算法是否能实现潜在空间中最优传输的有效、可微分优化,而无需密度模型或重参数化?
- RQ5选择先验分布(尤其是非高斯或结构化先验)如何影响表征的解耦性与生成样本的质量?
主要发现
- 在弱正则性条件下,数据分布与生成器分布之间的p-Wasserstein距离等价于最小化重构误差加上潜在空间中聚合后设与先验之间的p-Wasserstein距离。
- 目标函数中的权衡超参数γ恰好对应于生成器的Lipschitz常数,为其在控制模型容量中的作用提供了合理解释。
- 对任意通用近似器类(如确定性神经网络)优化编码器,可使模型任意接近最优解,验证了标准深度网络的适用性。
- 在MNIST和CelebA数据集上,SAE的FID得分与竞争方法(如VAE、WAE、HVAE)相当或更优,尤其在使用狄利克雷分布或超球面均匀分布等非高斯先验时表现更佳。
- 在高斯先验下,SAE和HAE因质量集中在细薄圆环上而出现模式崩溃,而W2GAE和SWAE避免了此问题,表明对先验几何结构敏感。
- 使用16维狄利克雷(1/5)先验时,SAE学习到一个结构化的潜在空间,每个数字映射到一个顶点,实现清晰插值和从顶点生成的高质量样本,尽管低概率区域仍存在匹配偏差。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。