[论文解读] Faster Wasserstein Distance Estimation with the Sinkhorn Divergence
该论文提出使用Sinkhorn发散估计平滑密度之间的W2^2,这使得更高的熵正则化成为可能,并在可比的样本复杂度下实现更快的计算,此外还有用于改进效率的 Richardson 外推变体。
The squared Wasserstein distance is a natural quantity to compare probability distributions in a non-parametric setting. This quantity is usually estimated with the plug-in estimator, defined via a discrete optimal transport problem which can be solved to $ε$-accuracy by adding an entropic regularization of order $ε$ and using for instance Sinkhorn's algorithm. In this work, we propose instead to estimate it with the Sinkhorn divergence, which is also built on entropic regularization but includes debiasing terms. We show that, for smooth densities, this estimator has a comparable sample complexity but allows higher regularization levels, of order $ε^{1/2}$, which leads to improved computational complexity bounds and a strong speedup in practice. Our theoretical analysis covers the case of both randomly sampled densities and deterministic discretizations on uniform grids. We also propose and analyze an estimator based on Richardson extrapolation of the Sinkhorn divergence which enjoys improved statistical and computational efficiency guarantees, under a condition on the regularity of the approximation error, which is in particular satisfied for Gaussian densities. We finally demonstrate the efficiency of the proposed estimators with numerical experiments.
研究动机与目标
- 从采样或离散化数据中,推动对密度之间 W2^2 的高效估计。
- 引入 Sinkhorn 发散作为 W2^2 的去偏的熵正则化 OT 估计量。
- 分析正则化和去偏在统计与计算上的权衡。
- 开发并分析 Richardson 外推出变体以提高精度和效率。
- 为所提出的估计量提供理论界限与数值验证。
提出的方法
- 将 Sinkhorn 发散 S_lambda 定义为 T_lambda(mu,nu) - 1/2(T_lambda(mu,mu) + T_lambda(nu,nu)).
- 引入 Richardson 外推出估计量 R_lambda = 2 S_lambda(mu,nu) - S_{sqrt{2} lambda}(mu,nu).
- 在正则性条件下,|S_lambda(mu,nu) - W2^2(mu,nu)| = O(lambda^2),并具有二阶展开。
- 给出在采样和离散化条件下,对比 Plug-in、S_lambda 和 R_lambda 估计量的样本复杂度界限。
- 分析 Sinkhorn 迭代的计算复杂性,并就 lambda 的选择给出实际指南。
- 讨论在抽象正则性假设下以及高斯情形中的 Richardson 外推出估计量性能。
实验结果
研究问题
- RQ1Sinkhorn 发散在平滑密度下如何近似平方 Wasserstein 距离?
- RQ2在估计 W2^2 时使用熵正则化与去偏会带来哪些统计与计算方面的权衡?
- RQ3Richardson 外推是否能在估计 W2^2 时带来偏差-方差权衡的改进?
- RQ4在随机采样与网格离散化下,所提出的估计量如何表现?
- RQ5在高维下,关于计算时间与精度的实际与理论保证有哪些?
主要发现
- Sinkhorn 发散提供了一个去偏的估计量,其偏差随 lambda^2 衰减,使得比 T_lambda 能承受更大的正则化,同时保持精度。
- 对于独立样本,S_lambda 的样本复杂度与 plug-in 估计量相当,但由于允许使用更大的 lambda,计算性能更好。
- 在合适的正则性条件下, Richardson 外推出估计量 (R_lambda) 能进一步减少偏差并提高效率,在高斯情形下具有明确界限。
- 当边缘量在网格上离散时,熵正则化提高了稳定性,在对数密度为 Lipschitz 的前提下,误差衰减比未正则化问题更快。
- 实证结果证实,与标准 plug-in 和 T_lambda 方法相比,S_lambda 和 R_lambda 在计算速度和准确性方面具有优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。