Skip to main content
QUICK REVIEW

[论文解读] Parameterized k-Clustering: The distance matters!

Fedor V. Fomin, Petr A. Golovach|arXiv (Cornell University)|Jan 1, 2019
Advanced Graph Theory Research参考文献 28被引用 3
一句话总结

该论文证明了当以聚类成本 D 为参数时,p ∈ (0,1] 阶的 Minkowski 距离下的 k-聚类问题是固定参数可满足的(FPT),其方法为一种新颖的颜色编码与超图覆盖技术。相比之下,对于 p = 0(汉明距离)和 p = ∞(L∞ 距离),该问题为 W[1]-难,表明距离范数类型导致了明显的复杂性分界。

ABSTRACT

In k-Clustering we are given a multiset of n vectors X subset Z^d and a nonnegative number D, and we need to decide whether X can be partitioned into k clusters C_1, ..., C_k such that the cost sum_{i=1}^k min_{c_i in R^d} sum_{x in C_i} |x-c_i|_p^p <= D, where |*|_p is the Minkowski (L_p) norm of order p. For p=1, k-Clustering is the well-known k-Median. For p=2, the case of the Euclidean distance, k-Clustering is k-Means. We study k-Clustering from the perspective of parameterized complexity. The problem is known to be NP-hard for k=2 and it is also NP-hard for d=2. It is a long-standing open question, whether the problem is fixed-parameter tractable (FPT) for the combined parameter d+k. In this paper, we focus on the parameterization by D. We complement the known negative results by showing that for p=0 and p=infty, k-Clustering is W1-hard when parameterized by D. Interestingly, the complexity landscape of the problem appears to be more intricate than expected. We discover a tractability island of k-Clustering: for every p in (0,1], k-Clustering is solvable in time 2^O(D log D) (nd)^O(1).

研究动机与目标

  • 研究 k-聚类问题在聚类成本 D 上的参数化复杂性。
  • 确定 Minkowski 距离范数 p 的选择如何影响 k-聚类的可 tractability。
  • 为 p ∈ (0,1] 建立 FPT 算法,并为 p = 0 和 p = ∞ 证明 W[1]-难性。
  • 探索聚类选择(Cluster Selection)的结构特性,作为 k-聚类核心子程序。

提出的方法

  • 使用颜色编码将 k-聚类问题约化为聚类选择问题。
  • 应用 Marx 的超图分数边覆盖定理以限制解的结构。
  • 将 k-聚类约化为满足特定凸性与齐次性性质的距离范数下的聚类选择问题。
  • 通过从 k-Clque 到聚类选择的新型约化,证明 p = 0 和 p = ∞ 情况下的 W[1]-难性。
  • 构建一个成本 D 的实例,其中仅对应于彩色 k-团的解才能达到最小成本。
  • 利用加权向量与中心点优化方法,建模 Lp 范数下的聚类成本。

实验结果

研究问题

  • RQ1当 Lp 范数满足 p ∈ (0,1] 时,k-聚类问题在以成本 D 为参数下是否为固定参数可满足的(FPT)?
  • RQ2为何 k-聚类问题在 p ∈ (0,1] 与 p = 0 或 p = ∞ 之间复杂性变化如此剧烈?
  • RQ3对于 p ∈ (0,1],聚类选择问题是否可在 FPT 时间内求解?
  • RQ4在允许 FPT 算法与不允许 FPT 算法的 Lp 范数之间,是否存在根本性的结构差异?
  • RQ5当以 D + k + d 为参数时,k-聚类的细粒度复杂性如何?

主要发现

  • 对于任意 p ∈ (0,1] 的 Lp 范数,k-聚类问题可在时间 2^O(D log D) · (nd)^O(1) 内求解,证明其在 D 上为 FPT。
  • 对于 p = 0(汉明距离),k-聚类在以 D 为参数时为 W[1]-难,意味着除非 FPT = W[1],否则不存在 FPT 算法。
  • 对于 p = ∞(L∞-距离),k-聚类在相同参数化下也为 W[1]-难。
  • 聚类选择问题在 D 上对 p ∈ (0,1] 为 FPT,这是实现主结果的核心算法贡献。
  • 从 k-Clique 到聚类选择的 W[1]-难性约化证明了 p = 0 或 p = ∞ 时不存在 FPT 算法。
  • 在构造的实例中,仅当解对应于彩色 k-团时,成本 D 才能被精确达到,从而确保了约化的正确性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。