Skip to main content
QUICK REVIEW

[论文解读] Consistency of Cheeger and Ratio Graph Cuts

Nicolás García Trillos, Dejan Slepčev|arXiv (Cornell University)|Nov 24, 2014
Topological and Geometric Data Analysis参考文献 29被引用 25
一句话总结

本文通过证明离散图割的极小化器在样本量增大时收敛于相应连续图割的极小化器,建立了切赫(Cheeger)和比例图割在数据聚类中的的一致性。利用Gamma-收敛,作者推导出确保双路与多路划分收敛的精确连通半径 $\varepsilon_n$ 的尺度条件,并通过数值实验验证了在各种尺度制度下误差的衰减。

ABSTRACT

This paper establishes the consistency of a family of graph-cut-based algorithms for clustering of data clouds. We consider point clouds obtained as samples of a ground-truth measure. We investigate approaches to clustering based on minimizing objective functionals defined on proximity graphs of the given sample. Our focus is on functionals based on graph cuts like the Cheeger and ratio cuts. We show that minimizers of the these cuts converge as the sample size increases to a minimizer of a corresponding continuum cut (which partitions the ground truth measure). Moreover, we obtain sharp conditions on how the connectivity radius can be scaled with respect to the number of sample points for the consistency to hold. We provide results for two-way and for multiway cuts. Furthermore we provide numerical experiments that illustrate the results and explore the optimality of scaling in dimension two.

研究动机与目标

  • 建立基于图割的聚类算法在随机点云上的理论一致性。
  • 确定连通半径 $\varepsilon_n$ 的精确尺度条件,以确保离散图割收敛到连续极限。
  • 通过切赫与比例割,将一致性结果扩展至双路与多路聚类。
  • 在不同 $\varepsilon_n$ 尺度制度下,通过数值实验验证理论发现。
  • 通过聚焦于最大连通分量,探索当图变得不连通时一致性是否仍然成立。

提出的方法

  • 使用Gamma-收敛作为变分框架,分析离散图割泛函在大样本极限下的行为。
  • 基于半径为 $\varepsilon_n$ 的邻近图,定义基于切赫与比例割的离散目标泛函。
  • 构建一个对应于在底层测度 $\nu$ 上最小化切赫或比例割的连续极限泛函。
  • 应用随机几何图理论的结果,刻画在不同 $\varepsilon_n$ 尺度下图的连通性与分量结构。
  • 实现一种改进算法,当 $\mathcal{G}_n$ 不连通时,将优化限制在最大连通分量 $\mathcal{H}_n$ 内,孤立顶点则均匀随机分配。
  • 通过最多包含 $128k$ 个点的数值实验,测量平均误差 $\mathbb{E}(e_n)$,并评估不同 $\varepsilon_n$ 尺度下的收敛速率。

实验结果

研究问题

  • RQ1在何种 $\varepsilon_n$ 条件下,离散切赫割的极小化器会收敛到连续切赫割的极小化器,当 $n \to \infty$ 时?
  • RQ2能否通过Gamma-收敛在双路与多路图割中均建立一致性?
  • RQ3相对于 $n$,$\varepsilon_n$ 的最优尺度为何,特别是在连通性阈值附近?
  • RQ4当图变得不连通时,若将优化限制在最大连通分量,一致性是否仍然成立?
  • RQ5不同的 $\varepsilon_n$ 尺度——强连通、弱连通或弱不连通——在实践中如何影响收敛性?

主要发现

  • 在适当的 $\varepsilon_n$ 尺度下,离散切赫割与比例割的极小化器在 $n \to \infty$ 时收敛于相应连续割的极小化器。
  • 对于双路割,当 $\varepsilon_n \sim n^{-0.3}$ 时,一致性成立,该尺度位于强连通区域。
  • 在 $\varepsilon_n = n^{-0.3}$ 条件下,误差 $\mathbb{E}(e_n)$ 随 $n$ 呈多项式衰减,从 $n=1k$ 时的 0.0778 降至 $n=128k$ 时的 0.0161。
  • 即使在临界连通性尺度 $\varepsilon_n = (\log n / (\pi n))^{1/2}$ 下,误差 $\mathbb{E}(e_n)$ 也从 $n=1k$ 时的 0.3243 降至 $n=64k$ 时的 0.0442,表明在弱不连通区域可能存在一致性。
  • 该算法在各类尺度下表现稳健:$\varepsilon_n = 2(\log n / (\pi n))^{1/2}$ 时也观察到相似的误差衰减,表明图的结构特性对收敛性影响有限。
  • 数值结果虽未证明几乎必然收敛,但通过马尔可夫不等式支持了依概率收敛,提示一致性可能在连通性阈值处依然成立。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。