[论文解读] Sample Complexity of Sinkhorn divergences
本文通过在 RKHS 中重新表述 Sinkhorn 散度,推导出一个新的样本复杂度界限;它给出一个与正则化常数相关的 1/√n 速率,连接了 OT 与 MMD。
Optimal transport (OT) and maximum mean discrepancies (MMD) are now routinely used in machine learning to compare probability measures. We focus in this paper on \emph{Sinkhorn divergences} (SDs), a regularized variant of OT distances which can interpolate, depending on the regularization strength $\varepsilon$, between OT ($\varepsilon=0$) and MMD ($\varepsilon=\infty$). Although the tradeoff induced by that regularization is now well understood computationally (OT, SDs and MMD require respectively $O(n^3\log n)$, $O(n^2)$ and $n^2$ operations given a sample size $n$), much less is known in terms of their \emph{sample complexity}, namely the gap between these quantities, when evaluated using finite samples \emph{vs.} their respective densities. Indeed, while the sample complexity of OT and MMD stand at two extremes, $1/n^{1/d}$ for OT in dimension $d$ and $1/\sqrt{n}$ for MMD, that for SDs has only been studied empirically. In this paper, we \emph{(i)} derive a bound on the approximation error made with SDs when approximating OT as a function of the regularizer $\varepsilon$, \emph{(ii)} prove that the optimizers of regularized OT are bounded in a Sobolev (RKHS) ball independent of the two measures and \emph{(iii)} provide the first sample complexity bound for SDs, obtained,by reformulating SDs as a maximization problem in a RKHS. We thus obtain a scaling in $1/\sqrt{n}$ (as in MMD), with a constant that depends however on $\varepsilon$, making the bridge between OT and MMD complete.
研究动机与目标
- 在高维场景中激发对正则化 OT 的样本复杂度研究。
- 推导一个关于熵正则化参数 ε 的函数的正则化 OT 与标准 OT 近似误差的界限。
- 表明 Sinkhorn 最优解落在与输入测度无关的 Sobolev (RKHS) 球内。
- 将 Sinkhorn 散度重新表述为一个基于 RKHS 的期望最大化问题。
- 提供首个明确的 Sinkhorn 散度样本复杂度界限,并将其与 MMD 与 OT 关联。
提出的方法
- 给出熵正则化 OT Wε 与真实 OT W 之间的界限,作为 ε 的函数。
- 证明 Sinkhorn 力场在 Sobolev(RKHS)空间中有界,且与边缘分布无关。
- 将 SD 重新表述为基于 RKHS 的期望最大化问题,以便采用核 SGD 方法。
- 应用基于 RKHS 的 PAC 学习(Bartlett–Mendelson 框架)以获得经验 SD 的 1/√n 收敛率。
- 推导 ε 相关常数及收敛的渐近性质,并给出集中性推论的推论。
实验结果
研究问题
- RQ1熵正则化参数 ε 如何影响正则化 OT 与标准 OT 之间的近似误差 Wε - W?
- RQ2Sinkhorn 力场是否可以在独立于边缘分布的 Sobolev/RKHS 球内有界,从而实现基于 RKHS 的优化方法?
- RQ3当从有限样本估计时,Sinkhorn 散度的样本复杂度是多少?它如何随 n 与 ε 变化?
- RQ4就统计效率而言,SD 如何在 OT (ε→0) 与 MMD (ε→∞) 之间插值?
- RQ5在计算 SD 时,对核-SGD 与基于 RKHS 的优化的实际意义是什么?
主要发现
- Wε(α,β) − W(α,β) ≤ 2ε d log(e^2 L D /(√d ε)),且当 ε→0 时渐近为 ~ 2ε d log(1/ε)。
- Sinkhorn 力场 (u,v) 在 Sobolev 空间 Hs(R^d) 中统一有界,范数为 O(1+1/ε^{s−1})。
- 正则化 OT 问题的最优解落在与测度无关的 RKHS 球内,便于核方法优化。
- 经验 Sinkhorn 散度以 O(1/√n) 的速率收敛到总体值,常数在小 ε 时按 exp(κ/ε)/ε^{⌊d/2⌋} 增长;在大 ε 时对 ε 无关。
- 基于 PAC/RKHS 的分析给出经验 SD 误差的界: E|Wε(α,β) − Wε(α̂n,β̂n)| = O((e^{κ/ε}/√n)(1+1/ε^{⎣d/2⎦})).
- 推论包括集中界,给出经验误差的高概率控制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。