Skip to main content
QUICK REVIEW

[论文解读] Hierarchical Clustering via Spreading Metrics

Aurko Roy, Sebastian Pokutta|arXiv (Cornell University)|Oct 28, 2016
Complexity and Algorithms in Graphs参考文献 18被引用 30
一句话总结

本文提出了一种基于扩散度量成本函数的 $O(\log n)$-近似算法,用于层次聚类,改进了先前的 $O(\log^{3/2}n)$ 边界。该方法利用了诱导超度量的组合特性,制定整数线性规划(ILP),并通过球体增长法进行迭代线性规划舍入,从而实现更优的近似保证。

ABSTRACT

We study the cost function for hierarchical clusterings introduced by [arXiv:1510.05043] where hierarchies are treated as first-class objects rather than deriving their cost from projections into flat clusters. It was also shown in [arXiv:1510.05043] that a top-down algorithm returns a hierarchical clustering of cost at most $O\left(α_n \log n ight)$ times the cost of the optimal hierarchical clustering, where $α_n$ is the approximation ratio of the Sparsest Cut subroutine used. Thus using the best known approximation algorithm for Sparsest Cut due to Arora-Rao-Vazirani, the top down algorithm returns a hierarchical clustering of cost at most $O\left(\log^{3/2} n ight)$ times the cost of the optimal solution. We improve this by giving an $O(\log{n})$-approximation algorithm for this problem. Our main technical ingredients are a combinatorial characterization of ultrametrics induced by this cost function, deriving an Integer Linear Programming (ILP) formulation for this family of ultrametrics, and showing how to iteratively round an LP relaxation of this formulation by using the idea of \emph{sphere growing} which has been extensively used in the context of graph partitioning. We also prove that our algorithm returns an $O(\log{n})$-approximate hierarchical clustering for a generalization of this cost function also studied in [arXiv:1510.05043]. Experiments show that the hierarchies found by using the ILP formulation as well as our rounding algorithm often have better projections into flat clusters than the standard linkage based algorithms. We also give constant factor inapproximability results for this problem.

研究动机与目标

  • 开发一种多项式时间近似算法,用于层次聚类,其近似比优于现有方法。
  • 解决先前算法依赖稀疏割子程序且近似因子次优的局限性。
  • 为层次聚类成本函数提供理论基础,将树结构视为第一类对象,而非投影到平坦聚类。
  • 将成本函数推广至原始公式的范围之外,同时保持 $O(\log n)$ 的近似保证。
  • 通过实验验证该算法在剪枝为平坦聚类时,与标准层次链接和 $k$-均值方法相比的聚类质量表现。

提出的方法

  • 利用树结构的组合性质,刻画由扩散度量成本函数诱导的超度量。
  • 将问题表述为有效超度量族的整数线性规划(ILP)松弛。
  • 将ILP松弛为线性规划(LP),并通过球体增长法进行迭代舍入——一种源自图划分的技术——以保持可行性与近似比。
  • 使用严格递增函数 $f$ 推广成本函数,在相同的舍入框架下保持 $O(\log n)$ 的近似。
  • 在合成数据集和真实世界数据集上实现ILP、其LP松弛以及舍入算法,与最优解和基线方法比较解的质量。
  • 证明:不存在多项式规模的LP或SDP可实现常数因子近似,且在小集合扩张假设下,也不存在多项式时间算法可实现该目标。

实验结果

研究问题

  • RQ1在Dasgupta的扩散度量成本函数下,是否存在一种多项式时间算法,可实现 $O(\log n)$ 的近似?
  • RQ2该 $O(\log n)$ 近似是否可扩展至涉及严格递增函数 $f$ 的广义成本函数?
  • RQ3扩散度量成本函数诱导的超度量背后的组合结构是什么?
  • RQ4是否存在通过LP或SDP松弛实现常数因子近似的根本障碍?
  • RQ5当剪枝为平坦聚类时,该算法在实践中与基于层次链接和 $k$-均值聚类的聚类质量相比如何?

主要发现

  • 所提算法对层次聚类成本函数实现了 $O(\log n)$-近似,优于先前的 $O(\log^{3/2}n)$ 边界。
  • 该算法在广义成本函数下仍保持 $O(\log n)$ 近似,其中成本由子树大小的严格递增函数 $f$ 加权。
  • ILP公式准确捕捉了由扩散度量诱导的有效超度量族,从而实现精确优化。
  • 通过球体增长法进行的迭代舍入成功地将LP松弛转化为具有有界成本偏差的整数解。
  • 实验表明,该算法生成的层次结构在剪枝为平坦聚类时,其聚类误差低于层次链接和 $k$-均值方法。
  • 本文证明:不存在多项式规模的LP或SDP可实现常数因子近似,且在小集合扩张假设下,也不存在多项式时间算法可实现该目标。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。