[论文解读] Learning Generative Models with Sinkhorn Divergences
本文提出 Sinkhorn 损失,一种基于熵正则化的最优传输(OT)目标,用于训练生成模型,通过 Sinkhorn 迭代和自动微分实现,在 OT 与 MMD 损失之间插值,以实现稳定、可扩展的学习。
The ability to compare two degenerate probability distributions (i.e. two probability distributions supported on two distinct low-dimensional manifolds living in a much higher-dimensional space) is a crucial problem arising in the estimation of generative models for high-dimensional observations such as those arising in computer vision or natural language. It is known that optimal transport metrics can represent a cure for this problem, since they were specifically designed as an alternative to information divergences to handle such problematic scenarios. Unfortunately, training generative machines using OT raises formidable computational and statistical challenges, because of (i) the computational burden of evaluating OT losses, (ii) the instability and lack of smoothness of these losses, (iii) the difficulty to estimate robustly these losses and their gradients in high dimension. This paper presents the first tractable computational method to train large scale generative models using an optimal transport loss, and tackles these three issues by relying on two key ideas: (a) entropic smoothing, which turns the original OT loss into one that can be computed using Sinkhorn fixed point iterations; (b) algorithmic (automatic) differentiation of these iterations. These two approximations result in a robust and differentiable approximation of the OT loss with streamlined GPU execution. Entropic smoothing generates a family of losses interpolating between Wasserstein (OT) and Maximum Mean Discrepancy (MMD), thus allowing to find a sweet spot leveraging the geometry of OT and the favorable high-dimensional sample complexity of MMD which comes with unbiased gradient estimates. The resulting computational architecture complements nicely standard deep network generative models by a stack of extra layers implementing the loss function.
研究动机与目标
- 在目标分布可能是奇异的或位于低维流形上时,动机使用最优传输几何来拟合生成模型。
- 引入一个可处理的基于 OT 的损失(Sinkhorn 损失),它对高维生成建模可微且鲁棒。
- 提供一个实用的与 SGD 兼容的算法,将小批量估计与可微的 Sinkhorn 迭代结合起来,以实现可扩展的训练。
提出的方法
- 把 Sinkhorn 损失定义为带有熵正则化的正则化 OT 距离,并给出其在极限时的行为:epsilon -> 0 时收敛到 OT,epsilon -> infinity 时收敛到 MMD。
- 将密度拟合问题表述为最小化模型的 push-forward 分布与数据分布之间的 Sinkhorn 损失。
- 使用熵平滑和 Gibbs 核,利用 Sinkhorn 迭代实现可微分且对 GPU 友好的优化。
- 用小批量近似损失并进行 L 次 Sinkhorn 迭代,以获得可用于自动微分的可微代理。
- 可选地通过一个特征映射 f_phi 学习参数化的成本 c_phi,以改进生成样本与真实样本之间的距离度量(在 theta, phi 上进行极小极大)。
- 提供一个支持 AutoDiff 的算法(复杂度为 O(L m n)),将 Sinkhorn 步骤整合到标准 SGD 的训练中。
实验结果
研究问题
- RQ1熵正则化是否能为高维数据的生成模型训练提供一个可处理、可微的基于 OT 的损失?
- RQ2Sinkhorn 损失如何在 OT 与 MMD 之间插值,以及对样本复杂性与梯度稳定性的实际影响?
- RQ3我们能否学习一个数据驱动的地面成本以改进生成分布与真实分布之间的对齐?
- RQ4在标准硬件上使用小批量和自动微分实现基于 Sinkhorn 的训练是否可行?
- RQ5超参数 epsilon、批量大小和 Sinkhorn 迭代次数如何影响收敛性和生成质量?
主要发现
- Sinkhorn 损失在 OT( epsilon -> 0) 和 MMD( epsilon -> infinity) 之间平滑插值,在几何性与样本效率之间提供折衷。
- 熵平滑降低梯度偏差并提升高维性能,使通过 Sinkhorn 迭代实现的稳定训练成为可能。
- 一个结合小批量和 L 次 Sinkhorn 迭代的实用 AutoDiff 型算法,能够实现对可微生成器的可微、对 GPU 友好的训练。
- 通过特征映射 f_phi 学习参数化代价可以进一步改进距离测量,形成 min_theta max_phi 的优化问题。
- 在用椭圆拟合数据和图像生成(MNIST,CIFAR-10)的经验演示中,显示对 epsilon、批量大小和 L 的敏感性,较大的 epsilon 往往能实现更快收敛。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。