[论文解读] Interpolating between Optimal Transport and MMD using Sinkhorn Divergences
本文提出将 Sinkhorn 发散在 OT 与 MMD 之间插值,证明其正性、凸性和收敛-度量化属性,并给出可扩展的 GPU 算法用于大规模分布比较。
Comparing probability distributions is a fundamental problem in data sciences. Simple norms and divergences such as the total variation and the relative entropy only compare densities in a point-wise manner and fail to capture the geometric nature of the problem. In sharp contrast, Maximum Mean Discrepancies (MMD) and Optimal Transport distances (OT) are two classes of distances between measures that take into account the geometry of the underlying space and metrize the convergence in law. This paper studies the Sinkhorn divergences, a family of geometric divergences that interpolates between MMD and OT. Relying on a new notion of geometric entropy, we provide theoretical guarantees for these divergences: positivity, convexity and metrization of the convergence in law. On the practical side, we detail a numerical scheme that enables the large scale application of these divergences for machine learning: on the GPU, gradients of the Sinkhorn loss can be computed for batches of a million samples.
研究动机与目标
- 在比较概率测度时,确保地面几何性质被尊重的几何损失的动机。
- 将 Sinkhorn 发散作为 OT 与 MMD 之间的可调插值引入。
- 建立理论保证:正性、凸性,以及收敛性在分布上的度量。
- 提供可扩展的数值方案,使 Sinkhorn 发散在大规模、GPU 加速计算中可实现。
提出的方法
- 用熵正则化 OT_epsilon 定义 OT,以及 Sinkhorn 发散 S_epsilon。
- 通过对偶形式和弱星对等可凸熵引入 Sinkhorn 负熵 F_epsilon。
- 证明 S_epsilon(alpha,beta) = OT_epsilon(alpha,beta) - 1/2 OT_epsilon(alpha,alpha) - 1/2 OT_epsilon(beta,beta)。
- 建立 F_epsilon 为严格凸的,并推导作为对称 Bregman 发散的 Hausdorff 发散 H_epsilon。
- 证明 S_epsilon 在每个输入上是凸的、光滑的,并且度量收敛性(测度的弱收敛)。
- 提供一个可在 GPU 上实现的算法管线,用以计算 S_epsilon 及其梯度,包含对偶势和自变量条项的对称对角更新。
实验结果
研究问题
- RQ1 Sinkhorn 发散是否提供一个正定的损失,能够度量概率测度的弱收敛(分布收敛)?
- RQ2S_epsilon 如何在 OT(epsilon->0) 与类似 MMD 的行为( epsilon 较大) 之间进行插值?
- RQ3是否可以在大规模上利用 GPU 加速高效地计算 S_epsilon 及其梯度?
- RQ4S_epsilon 及相关对偶势的理论性质(正性、凸性、光滑性)是什么?
- RQ5在实际学习任务中,如何通过 S_epsilon 修正项对 OT_epsilon 进行去偏?
主要发现
- S_epsilon 是一个对称的、正定的、光滑的损失,在每个输入上凸,并且度量收敛性。
- S_epsilon 在 OT(epsilon -> 0)与一个平方核样范数(epsilon 较大)之间插值。
- 作者证明了 Sinkhorn 负熵 F_epsilon 的正性和严格凸性,并推导出用于分析的 Hausdorff 发散。
- 他们提供了一个基于对偶势的计算方案,能够对多达百万样本的批次计算梯度。
- 实现依赖于 Sinkhorn 迭代、对称对角更新,以及 GPU 加速管线,包括批处理和 KeOps 库用于大规模内存效率。
- 经验讨论表明 S_epsilon 缓解 OT_epsilon 中存在的熵偏差,并提供稳定、梯度友好的优化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。