Skip to main content
QUICK REVIEW

[论文解读] Sinkhorn Distances: Lightspeed Computation of Optimal Transportation Distances

Marco Cuturi|arXiv (Cornell University)|Jun 4, 2013
Advanced Image and Video Retrieval Techniques参考文献 18被引用 70
一句话总结

本文提出了Sinkhorn距离,一种通过熵正则化实现的可微分、快速的最优传输距离近似方法。通过在最优传输问题中引入熵项进行平滑处理,作者利用Sinkhorn-Knopp算法实现计算,相较于传统求解器实现了数量级的加速,同时在MNIST分类等基准任务上保持或提升了性能。

ABSTRACT

Optimal transportation distances are a fundamental family of parameterized distances for histograms. Despite their appealing theoretical properties, excellent performance in retrieval tasks and intuitive formulation, their computation involves the resolution of a linear program whose cost is prohibitive whenever the histograms' dimension exceeds a few hundreds. We propose in this work a new family of optimal transportation distances that look at transportation problems from a maximum-entropy perspective. We smooth the classical optimal transportation problem with an entropic regularization term, and show that the resulting optimum is also a distance which can be computed through Sinkhorn-Knopp's matrix scaling algorithm at a speed that is several orders of magnitude faster than that of transportation solvers. We also report improved performance over classical optimal transportation distances on the MNIST benchmark problem.

研究动机与目标

  • 为解决最优传输距离的高计算成本问题,其复杂度随维度d > 几百时急剧上升(O(d³ log d))。
  • 通过大幅减少计算时间,使最优传输在大规模机器学习中具备实际应用可行性。
  • 开发一种可微分、可扩展的地球移動距离(EMD)替代方法,在保持理论性质的同时提升效率。
  • 证明熵正则化可产生数值稳定且可并行化的算法,适用于GPGPU加速。

提出的方法

  • 在经典最优传输问题中引入熵惩罚项,将线性规划问题转化为严格凸优化问题。
  • 使用Sinkhorn-Knopp矩阵平衡算法求解正则化问题,该算法线性收敛且可轻松并行化。
  • 将Sinkhorn距离定义为正则化最优传输问题的解,正则化参数λ控制精度与速度之间的权衡。
  • 通过迭代缩放行和列和的方式实现,更新对偶变量直至收敛,得到近似最优传输计划的矩阵P。
  • 利用Sinkhorn迭代的可微性,使该方法可无缝集成到深度学习端到端训练流程中。
  • 实际应用中采用固定迭代次数,独立于收敛准则,以确保在并行硬件上执行的可预测性与高效性。

实验结果

研究问题

  • RQ1熵正则化是否能在不损失性能的前提下显著加速最优传输距离的计算?
  • RQ2Sinkhorn-Knopp算法是否能提供一种可扩展且可微分的传统最优传输求解器替代方案?
  • RQ3在标准基准(如MNIST)上,Sinkhorn距离与地球移動距离(EMD)的性能相比如何?
  • RQ4尽管输入维度较高,Sinkhorn距离是否仍可在大规模机器学习应用中有效使用?
  • RQ5正则化参数λ对计算速度与近似精度之间权衡的影响是什么?

主要发现

  • Sinkhorn距离的计算速度比传统最优传输求解器快几个数量级,即使在不假设底层面距离结构的情况下也成立。
  • 在MNIST基准测试中,Sinkhorn距离在分类准确率上优于经典地球移動距离(EMD)。
  • Sinkhorn-Knopp算法线性收敛且高度可并行化,适用于GPGPU加速。
  • 该方法对不同底层面距离具有鲁棒性,无需结构假设或预处理。
  • 较小的正则化参数λ值可获得比大值更好的性能,表明对低正则化存在明确偏好。
  • 熵正则化带来了可微分的距离度量,使其可集成到深度学习框架中。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。