Skip to main content
QUICK REVIEW

[论文解读] Hierarchical clustering better than average-linkage

Moses Charikar, Vaggos Chatziafratis|arXiv (Cornell University)|Jan 6, 2019
Complex Network Analysis Techniques被引用 34
一句话总结

本文证明了平均链接层次聚类在最近提出的基于相似度和基于相异度的两种目标下,分别无法获得优于 1/3 和 2/3 的近似比。为克服此问题,作者提出了两种基于半定规划(SDP)的新算法,实现了严格更优的近似保证,解决了长期存在的开放问题,并证明了层次聚类在平均链接聚类之外可实现显著改进。

ABSTRACT

Hierarchical Clustering (HC) is a widely studied problem in exploratory data analysis, usually tackled by simple agglomerative procedures like average-linkage, single-linkage or complete-linkage. In this paper we focus on two objectives, introduced recently to give insight into the performance of average-linkage clustering: a similarity based HC objective proposed by [21] and a dissimilarity based HC objective proposed by [9]. In both cases, we present tight counterexamples showing that average-linkage cannot obtain better than 1/3 and 2/3 approximations respectively (in the worst-case), settling an open question raised in [21]. This matches the approximation ratio of a random solution, raising a natural question: can we beat average-linkage for these objectives? We answer this in the affirmative, giving two new algorithms based on semidefinite programming with provably better guarantees.

研究动机与目标

  • 研究平均链接聚类在两种近期提出的层次聚类目标下的最坏情况近似性能:一种是基于相似度的目标,另一种是基于相异度的目标。
  • 确定平均链接聚类是否能为这些目标实现优于随机解的近似比,因为目前其性能与随机解相当。
  • 通过构建紧致反例,解决文献中的一个开放问题,揭示平均链接聚类的局限性。
  • 设计新算法,通过利用半定规划来提升近似保证,从而超越平均链接聚类的性能。

提出的方法

  • 作者构建了紧致的最坏情况反例,证明平均链接聚类在基于相似度的目标下最多只能达到 1/3 的近似比,在基于相异度的目标下最多只能达到 2/3 的近似比。
  • 他们提出了两种基于半定规划(SDP)的新颖算法,通过利用层次聚类目标的结构,实现了严格更优的近似保证。
  • SDP 松弛被设计为将层次聚类问题建模为凸优化问题,从而获得更强的理论界。
  • 通过对偶性和舍入技术对算法进行分析,以确保解在最坏情况下既可行又严格优于平均链接聚类。
  • 理论分析表明,新算法在两种目标下分别实现了严格优于 1/3 和 2/3 的近似比。

实验结果

研究问题

  • RQ1在最坏情况下,平均链接聚类能否为基于相似度的层次聚类目标实现优于 1/3 的近似比?
  • RQ2在最坏情况下,平均链接聚类能否为基于相异度的层次聚类目标实现优于 2/3 的近似比?
  • RQ3能否设计一种层次聚类算法,使其在这些目标下可被严格证明优于平均链接聚类?
  • RQ4是否存在紧致反例,能够揭示平均链接聚类在这些目标下的最坏情况局限性?

主要发现

  • 在最坏情况下,平均链接聚类无法为基于相似度的目标实现优于 1/3 的近似比,且该界是紧致的。
  • 对于基于相异度的目标,平均链接聚类在最坏情况下受限于 2/3 的近似比,且该界也是紧致的。
  • 作者构造了明确的最坏情况实例,证明了这些边界的紧致性,从而解决了文献中的一个开放问题。
  • 提出了两种基于半定规划的新算法,其在两种目标下均实现了严格优于平均链接聚类的近似保证。
  • 新算法提供了可被证明的近似比,超过了平均链接聚类的最坏情况性能,展示了理论上的优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。