Skip to main content
QUICK REVIEW

[论文解读] Hierarchical Clusterings of Unweighted Graphs

Svein Høgemo, Christophe Paul|arXiv (Cornell University)|Aug 7, 2020
Complex Network Analysis Techniques被引用 2
一句话总结

本文提出一种归一化过程,以在未加权图上优化层次聚类的Dasgupta目标函数。证明了在稠密未加权图中该问题为NP完全问题,并识别出一类称为最小良好行为图(min-well-behaved graphs)的图类——如6-环图和共二分图——在此类图中,k个副本的最优聚类可简化为单个副本的聚类,从而通过因子分解树实现高效计算。

ABSTRACT

International audience

研究动机与目标

  • 确定在未加权相似性图上,寻找满足Dasgupta目标函数的最优层次聚类的计算复杂性。
  • 识别出一类图结构,使得k个不相交副本的最优聚类可由单个副本的最优聚类导出。
  • 开发一种归一化过程,将任意层次聚类转换为特定图类下的最优聚类。
  • 证明六阶环图(C6)是最小良好行为图,从而将可高效聚类的图类扩展至共二分图之外。

提出的方法

  • 引入两阶段归一化过程:自顶向下遍历以应用剪枝优化(Cut Optimization),自底向上遍历以应用左重分配(Left-Heavy Distribution)与平衡化(Balancing)。
  • 利用归一化过程迭代改进任意层次聚类,直至达到无法进一步降低代价的最优聚类。
  • 将最小良好行为图定义为:其k个不相交副本H(k)的最优聚类可由单个副本H的最优聚类导出。
  • 通过系数矩阵分析归一化过程中子棱柱(sub-prisms)的DC-cost变化,验证该过程不会增加代价。
  • 将该过程应用于棱柱图P,并证明其k重副本P(k)具有因子分解形式的最优聚类,DC-cost为48k²。
  • 采用带符号系数的净收益分析,验证在自底向上遍历过程中,任何子棱柱配置均不会降低整体DC-cost。

实验结果

研究问题

  • RQ1在未加权图上,寻找满足Dasgupta目标函数的最优层次聚类问题是否为NP完全问题?
  • RQ2哪些图类允许k个不相交副本的最优聚类可由单个副本的最优聚类导出?
  • RQ3六阶环图(C6)是否为最小良好行为图,即其k个副本的最优聚类是否可通过独立聚类每个副本获得?
  • RQ4归一化过程是否能保证在所有步骤中保持或改善DC-cost,从而确保收敛至最优解?
  • RQ5图的何种结构特性可确保其k重不相交并集的最优聚类在各副本间保持因子分解形式?

主要发现

  • 在未加权图上,寻找满足Dasgupta目标函数的最优层次聚类问题是NP完全的,即使在稠密图中(每个顶点度数至少为n−6)亦然。
  • 六阶环图(C6)是最小良好行为图,即对任意k,k个不相交C6副本的最优层次聚类可通过独立聚类每个副本实现。
  • 归一化过程是安全的:自顶向下与自底向上遍历均保持或改善DC-cost,确保收敛至有效最优聚类。
  • 棱柱图P是最大良好行为图(max-well-behaved),其k重不相交并集P(k)具有DC-cost为48k²的最优层次聚类,且可通过副本间因子分解实现。
  • 归一化过程的安全性通过基于系数的净收益分析得到证明,表明在自底向上处理过程中,任何子棱柱配置均无法降低总DC-cost。
  • 本文识别出共二分图与C6为最小良好行为图,表明此类结构特性虽稀少,但足以实现多副本的高效聚类。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。