Skip to main content
QUICK REVIEW

[论文解读] Large Scale computation of Means and Clusters for Persistence Diagrams using Optimal Transport

Théo Lacombe, Marco Cuturi|arXiv (Cornell University)|May 22, 2018
Topological and Geometric Data Analysis被引用 32
一句话总结

本文提出了一种可扩展的框架,通过带有熵正则化的最优传输(OT)计算持久性图的均值和聚类,利用Sinkhorn算法实现高效的GPU加速计算。该方法将图度量重新表述为OT问题,得到凸性、可微分且可并行计算的结果,其在速度和收敛性方面优于先前方法,首次实现了对5,000个持久性图的大型规模$k$-均值聚类,使用真实世界数据。

ABSTRACT

Persistence diagrams (PDs) are now routinely used to summarize the underlying topology of complex data. Despite several appealing properties, incorporating PDs in learning pipelines can be challenging because their natural geometry is not Hilbertian. Indeed, this was recently exemplified in a string of papers which show that the simple task of averaging a few PDs can be computationally prohibitive. We propose in this article a tractable framework to carry out standard tasks on PDs at scale, notably evaluating distances, estimating barycenters and performing clustering. This framework builds upon a reformulation of PD metrics as optimal transport (OT) problems. Doing so, we can exploit recent computational advances: the OT problem on a planar grid, when regularized with entropy, is convex can be solved in linear time using the Sinkhorn algorithm and convolutions. This results in scalable computations that can stream on GPUs. We demonstrate the efficiency of our approach by carrying out clustering with diagrams metrics on several thousands of PDs, a scale never seen before in the literature.

研究动机与目标

  • 解决标准持久性图操作(如距离计算、中位数估计和聚类)的计算不可行性问题。
  • 克服持久性图的非希尔伯特几何结构,该结构阻碍了标准机器学习工具(如$k$-均值和PCA)的应用。
  • 通过将图度量重新表述为带有熵正则化的最优传输问题,实现大规模拓扑数据分析。
  • 提供一种可微分、凸性且支持GPU并行计算的中位数计算框架,避免陷入局部极小值。
  • 通过所提出的框架,首次实现对5,000个持久性图的可行$k$-均值聚类。

提出的方法

  • 将持久性图度量(瓶颈距离和$p$-Wasserstein距离)重新表述为在平面网格上的最优传输问题,并引入熵正则化。
  • 将持久性图离散化为$d \times d$网格上的直方图,以支持基于矩阵的计算。
  • 使用带有熵正则化的Sinkhorn算法求解OT问题,实现线性时间复杂度并支持GPU加速。
  • 引入图距离的可微分近似,具有加法误差界,支持基于梯度的优化。
  • 通过Eulerian形式化将Fréchet中位数问题表述为凸优化任务,并在传输计划上使用梯度下降。
  • 将近似距离计算与中位数计算集成到可扩展的持久性图$k$-均值聚类流水线中。

实验结果

研究问题

  • RQ1带有熵正则化的最优传输能否有效适应大规模计算持久性图之间的距离?
  • RQ2能否利用熵正则化OT的凸性与可微性,比非凸组合方法更可靠地计算持久性图的中位数?
  • RQ3所提出的框架能否实现大规模持久性图聚类(特别是$k$-均值)——在包含数千个图的数据集中?
  • RQ4与B-Munkres等现有算法相比,所提出方法在图大小增加时的计算效率和收敛行为如何?
  • RQ5与非凸方法相比,该凸形式化在中位数估计中在多大程度上避免了局部极小值?

主要发现

  • 所提出的方法实现了对来自3D形状数据库的5,000个持久性图数据集的$k$-均值聚类,该规模在文献中此前无法实现。
  • 基于Sinkhorn的算法在P100 GPU上处理5,000个图的数据集耗时40至80分钟,展示了实际可扩展性。
  • 该方法在速度上优于B-Munkres算法,并避免了局部极小值,无论初始化如何,均收敛到更低能量解。
  • 该算法在图大小上呈次线性扩展,运行时间的增长显著慢于匈牙利算法的$O(n^3)$复杂度。
  • 熵正则化为图距离提供了加法误差界,确保了近似质量的可控性。
  • 可微分且凸的公式化支持可靠的基于梯度的优化用于中位数计算,而此前的非凸方法不具备此特性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。