Skip to main content
QUICK REVIEW

[论文解读] On Variants of k-means Clustering

Bhattiprolu, Vijay V. S. P., Har-Peled, Sariel|arXiv (Cornell University)|Dec 9, 2015
Computational Geometry and Mesh Generation参考文献 29被引用 13
一句话总结

本文提出了一种用于变体 k-means 聚类问题——平方和设施选址(Sum of Squares Facility Location, SOS-FL)的局部搜索多项式时间近似方案(PTAS)。SOS-FL 的目标是最小化设施开启成本与平方距离之和的组合。对于任意固定的维度 d 和 ε > 0,该算法实现了 (1 + ε)-近似,解决了在固定维欧几里得空间中 SOS-FL 是否存在 PTAS 的开放问题。

ABSTRACT

Given a set P of n points in R^d , we show how to insert a set Z of O(n^(1-1/d)) additional points, such that P can be broken into two sets P1 and P2 , of roughly equal size, such that in the Voronoi diagram V(P u Z), the cells of P1 do not touch the cells of P2; that is, Z separates P1 from P2 in the Voronoi diagram (and also in the dual Delaunay triangulation). In addition, given such a partition (P1,P2) of P , we present an approximation algorithm to compute a minimum size separator realizing this partition. We also present a simple local search algorithm that is a PTAS for approximating the optimal Voronoi partition.

研究动机与目标

  • 研究在固定维欧几里得空间中,平方和设施选址(SOS-FL)问题是否具有多项式时间近似方案(PTAS)。
  • 理解 k-means 聚类的困难性是否源于目标函数(平方距离之和)本身,还是源于对中心数量的全局约束。
  • 设计一种基于局部搜索的近似算法,用于 SOS-FL,以实现接近最优的性能保证。
  • 通过分析全局约束与平方距离目标函数的作用,将 SOS-FL 的洞察推广至经典 k-means 问题。

提出的方法

  • 设计一种局部搜索启发式算法,通过迭代交换设施来改进解,基于设施成本与分配成本的势函数进行优化。
  • 提出一种 k-means 的双准则局部搜索算法,使用 (1 + ε)k 个中心,并实现解成本在最优 k-means 成本的 (1 + ε) 以内。
  • 采用分摊分析法与势函数分析,结合固定维度下的几何性质,以界定近似比。
  • 利用基于聚类的解空间分解与递归细化过程,确保收敛至 (1 + ε)-近似解。
  • 应用受 Arora 的几何问题 PTAS 启发的技术,通过仔细分析局部改进,将其适配于处理平方距离。
  • 证明该局部搜索算法在任意固定维度 d 下,以多项式时间终止,并为 SOS-FL 提供 (1 + ε)-近似解。

实验结果

研究问题

  • RQ1在固定维欧几里得空间中,平方和设施选址(SOS-FL)问题是否具有 PTAS?
  • RQ2局部搜索技术能否有效应用于涉及平方距离的几何问题,如 k-means 和 SOS-FL?
  • RQ3k-means 聚类的 NP-难解性主要源于平方和目标函数,还是对中心数量的全局约束?
  • RQ4k-means 的双准则局部搜索算法能否在仅使用 (1 + ε)k 个中心的前提下,实现 (1 + ε)-近似?
  • RQ5设施成本参数 f 在平衡设施数量与平方距离之和之间的权衡中起什么作用?

主要发现

  • 本文在任意固定维度 d 下,为 SOS-FL 提供了一种基于局部搜索的 PTAS,对任意 ε > 0 实现了 (1 + ε)-近似。
  • 该算法在多项式时间内运行,采用通过交换设施改进解的局部搜索启发式,结合势函数确保收敛。
  • 对于 k-means,作者设计了一种双准则局部搜索算法,使用 (1 + ε)k 个中心,并使解成本在最优 k-means 成本的 (1 + ε) 以内。
  • 分析表明,局部搜索方法能有效处理平方距离,提供接近最优的界,而此前方法仅能达到 9 + ε 的近似比。
  • 该结果表明,k-means 的困难性源于全局约束与平方距离目标函数的组合,而非目标函数本身。
  • 所开发的框架为分析几何近似中的局部搜索提供了一般性方法,具有推广至其他涉及平方距离问题的潜力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。