Skip to main content
QUICK REVIEW

[论文解读] Approximate Greedy Clustering and Distance Selection for Graph Metrics

David Eppstein, Sariel Har-Peled|arXiv (Cornell University)|Jul 6, 2015
Computational Geometry and Mesh Generation参考文献 32被引用 6
一句话总结

本文提出了图度量和高维欧几里得空间中贪心排列与距离选择的高效近似算法。它引入了随机化算法,可在稀疏图和高维欧几里得数据中以近乎线性期望时间计算 (1+ε)-近似贪心排列,并为有界树宽图设计了确定性算法以精确计算贪心排列。主要贡献在于为基本度量问题提供了亚二次时间近似方案,从而实现了大规模数据工作负载中可扩展的聚类与距离选择。

ABSTRACT

$ ewcommand{\eps}{\varepsilon}$ In this paper, we consider two important problems defined on finite metric spaces, and provide efficient new algorithms and approximation schemes for these problems on inputs given as graph shortest path metrics or high-dimensional Euclidean metrics. The first of these problems is the greedy permutation (or farthest-first traversal) of a finite metric space: a permutation of the points of the space in which each point is as far as possible from all previous points. We describe randomized algorithms to find $(1+\eps)$-approximate greedy permutations of any graph with $n$ vertices and $m$ edges in expected time $O(\eps^{-1}(m+n)\log n\log(n/\eps))$, and to find $(1+\eps)$-approximate greedy permutations of points in high-dimensional Euclidean spaces in expected time $O(\eps^{-2} n^{1+1/(1+\eps)^2 + o(1)})$. Additionally we describe a deterministic algorithm to find exact greedy permutations of any graph with $n$ vertices and treewidth $O(1)$ in worst-case time $O(n^{3/2}\log^{O(1)} n)$. The second of the two problems we consider is distance selection: given $k \in [ \binom{n}{2} ]$, we are interested in computing the $k$th smallest distance in the given metric space. We show that for planar graph metrics one can approximate this distance, up to a constant factor, in near linear time.

研究动机与目标

  • 解决由图或高维欧几里得数据定义的大度量空间中贪心排列与距离选择的可扩展性问题。
  • 开发运行时间在亚二次时间内的贪心排列与距离选择近似算法,克服朴素方法的 O(n²) 性能瓶颈。
  • 为有界树宽图中的贪心排列提供高效的精确算法,优于标准的 O(n²) 方法。
  • 为平面图度量中的距离选择设计快速近似方案,在近乎线性时间内实现常数因子近似。
  • 通过利用图结构与几何特性,实现大规模数据工作负载中高效且可扩展的聚类与距离计算。

提出的方法

  • 使用随机采样与基于平面分离器的图分层分解,以近似稀疏图中的贪心排列。
  • 应用基于 Thorup 框架的 (1+ε)-近似距离预言机,以在平面图中以有界误差估计距离。
  • 利用将图分解为边界集较小的区域的分层分解方法,高效计算局部距离计数。
  • 从边界顶点运行 Dijkstra 算法以计算半径 r 内的可达性,并结合距离预言机查询以限制总对数。
  • 构建一个预处理时间为 O(ε⁻²n log³n)、查询时间为 O(ε⁻¹) 的距离预言机,以估计距离在 (1+ε)r 以内的点对数量。
  • 将分层分解中所有区域的局部计数结果合并,得到全局估计值 α,满足 |P≤r| ≤ α ≤ |P≤(3+ε)r|。

实验结果

研究问题

  • RQ1能否在稀疏图和高维欧几里得空间中以近乎线性期望时间计算 (1+ε)-近似贪心排列?
  • RQ2在使用亚二次时间算法时,平面图度量中距离选择的最佳可能近似比是多少?
  • RQ3能否在有界树宽图中以快于 O(n²) 的速度计算精确贪心排列?
  • RQ4如何结合图的分层分解与距离预言机,以估计给定距离范围内的点对数量?
  • RQ5在多大程度上可以利用图度量的结构,以实现基本度量问题的亚二次时间解法?

主要发现

  • 随机化算法可在期望时间 O(ε⁻¹(m + n) log n log(n/ε)) 内计算任意具有 n 个顶点和 m 条边的图的 (1+ε)-近似贪心排列。
  • 对于高维欧几里得空间,本文在期望时间 O(ε⁻²n¹⁺¹/(1+ε)²⁺ᵒ⁽¹⁾) 内实现了 (1+ε)-近似贪心排列。
  • 确定性算法可在最坏情况时间 O(n³ᐟ² logᴼ⁽¹⁾ n) 内计算树宽为 O(1) 的图的精确贪心排列。
  • 对于平面图度量,本文在 O(ε⁻²n log³n) 时间内提供了对第 k 小距离的常数因子近似。
  • 距离选择算法返回一个整数 α,满足 |P≤r| ≤ α ≤ |P≤(3+ε)r|,确保对真实计数的常数因子近似。
  • 整体方法可在 O(ε⁻¹m log²n) 时间内同时为所有 k 提供 (2+ε)-近似 k-中心聚类,显著优于先前方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。