[论文解读] Linear Time Sinkhorn Divergences using Positive Features
本文提出了一种基于正特征映射的Sinkhorn散度线性时间近似方法,将计算复杂度从O(n²)降低至O(nr),通过在正象限中建模基底成本为内积实现。该方法实现了可微分、可扩展的最优传输,适用于OT-GAN训练等应用,在保持梯度保真度的同时显著提升了速度。
Although Sinkhorn divergences are now routinely used in data sciences to compare probability distributions, the computational effort required to compute them remains expensive, growing in general quadratically in the size $n$ of the support of these distributions. Indeed, solving optimal transport (OT) with an entropic regularization requires computing a $n imes n$ kernel matrix (the neg-exponential of a $n imes n$ pairwise ground cost matrix) that is repeatedly applied to a vector. We propose to use instead ground costs of the form $c(x,y)=-\log\dotp{\varphi(x)}{\varphi(y)}$ where $\varphi$ is a map from the ground space onto the positive orthant $\RR^r_+$, with $r\ll n$. This choice yields, equivalently, a kernel $k(x,y)=\dotp{\varphi(x)}{\varphi(y)}$, and ensures that the cost of Sinkhorn iterations scales as $O(nr)$. We show that usual cost functions can be approximated using this form. Additionaly, we take advantage of the fact that our approach yields approximation that remain fully differentiable with respect to input distributions, as opposed to previously proposed adaptive low-rank approximations of the kernel matrix, to train a faster variant of OT-GAN \cite{salimans2018improving}.
研究动机与目标
- 为解决Sinkhorn散度计算成本过高的问题,其复杂度随支撑集大小n呈二次方增长。
- 利用正特征映射开发一种低秩、可微分的熵最优传输核矩阵近似方法。
- 通过用高效特征运算替代昂贵的核计算,实现OT-GAN的更快训练。
- 与先前的低秩方法不同,保持近似方法对输入分布的可微分性。
提出的方法
- 该方法将基底成本建模为c(x,y) = -log⟨φ(x), φ(y)⟩,其中φ将数据点映射到正象限ℝʳ₊,且满足r ≪ n。
- 该公式生成一个正定核k(x,y) = ⟨φ(x), φ(y)⟩,使得矩阵-向量乘法可在O(nr)时间内高效完成。
- 通过利用特征映射的低秩结构,该近似使每次Sinkhorn迭代的复杂度从二次方降低为线性,从而实现线性时间复杂度。
- 该方法保持了Sinkhorn散度对输入概率测度的完全可微分性,支持端到端学习。
- 该方法被应用于训练一种更快的OT-GAN变体,充分利用了近似的可微分特性。
实验结果
研究问题
- RQ1我们能否在保持可微分性的同时,以线性时间近似Sinkhorn散度?
- RQ2正特征映射能否实现低秩核结构,从而将OT计算从O(n²)降低至O(nr)?
- RQ3所提出的方法在GAN训练等下游任务中是否保持了足够的精度?
- RQ4与先前的低秩核近似方法相比,该近似的可微分性如何?
主要发现
- 所提方法将Sinkhorn迭代的计算成本从O(n²)降低至O(nr),实现了线性时间计算。
- 使用正特征映射确保了核矩阵保持正定性,并适用于高效的矩阵-向量运算。
- 与先前的低秩近似方法不同,该近似对输入分布保持完全可微分性。
- 通过用高效特征运算替代昂贵的核计算,该方法实现了OT-GAN的更快训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。