Skip to main content
QUICK REVIEW

[论文解读] Axioms for graph clustering quality functions

Twan van Laarhoven, Elena Marchiori|arXiv (Cornell University)|Aug 15, 2013
Complex Network Analysis Techniques参考文献 31被引用 38
一句话总结

本文提出了一套图聚类质量函数的公理化框架,识别出六个核心属性——其中四个源自基于距离的聚类,两个为图特有——以评估和指导质量函数的设计。结果表明,标准模块度不满足单调性和局部性等关键公理,因此提出了自适应尺度模块度,这是一种双参数质量函数族,满足所有公理,并推广了归一化切分、非归一化切分以及Reichardt-Bornholdt模块度。

ABSTRACT

We investigate properties that intuitively ought to be satisfied by graph clustering quality functions, that is, functions that assign a score to a clustering of a graph. Graph clustering, also known as network community detection, is often performed by optimizing such a function. Two axioms tailored for graph clustering quality functions are introduced, and the four axioms introduced in previous work on distance based clustering are reformulated and generalized for the graph setting. We show that modularity, a standard quality function for graph clustering, does not satisfy all of these six properties. This motivates the derivation of a new family of quality functions, adaptive scale modularity, which does satisfy the proposed axioms. Adaptive scale modularity has two parameters, which give greater flexibility in the kinds of clusterings that can be found. Standard graph clustering quality functions, such as normalized cut and unnormalized cut, are obtained as special cases of adaptive scale modularity. In general, the results of our investigation indicate that the considered axiomatic framework covers existing `good' quality functions for graph clustering, and can be used to derive an interesting new family of quality functions.

研究动机与目标

  • 将图聚类质量函数应满足的直观属性形式化,将先前基于距离的聚类公理化工作扩展至图聚类。
  • 通过测试其对图特异性公理集的符合程度,识别现有质量函数(如模块度)的不足之处。
  • 推导出一个新且灵活的质量函数族,满足所有提出的公理,从而实现更系统化和鲁棒的图聚类。
  • 证明既有的方法(如归一化切分和非归一化切分)可作为所提框架的特例。
  • 通过公理化视角为质量函数设计提供理论依据,提升网络社区检测中的可解释性与一致性。

提出的方法

  • 提出六条图聚类质量函数的公理:置换不变性、尺度不变性、丰富性、单调性、连续性和局部性——其中四条源自Kleinberg和Ackerman & Ben-David,两条为图特有之新公理。
  • 引入自适应尺度模块度作为参数化质量函数,参数为 $M$ 和 $γ$,定义为 $Q_{M,γ}(G,C) = \sum_{c \in C} \left( \frac{w_c}{M + \gamma w_c + \gamma b_c} - \left( \frac{w_c + b_c}{M + \gamma w_c + \gamma b_c} \right)^2 \right)$,其中 $w_c$ 为簇 $c$ 的内部权重,$b_c$ 为外部权重。
  • 证明自适应尺度模块度满足所有六条公理,特别是标准模块度所不满足的单调性和局部性。
  • 证明当 $M \to 0$ 时,自适应尺度模块度退化为等价于归一化切分的形式;当 $M \to \infty$ 时,其趋近于非归一化切分。
  • 利用数学引理证明:对于任意聚类,质量函数在真实聚类上达到最大值,从而在适当的边权重缩放下证明其丰富性。
  • 采用偏导数分析单调性,表明增加内部权重 ($w_c$) 和减少外部权重 ($b_c$) 会提升质量函数值。

实验结果

研究问题

  • RQ1图聚类质量函数应满足哪些属性,才能被认为是直观合理且理论稳健的?
  • RQ2广泛使用的模块度函数是否满足所提出的公理,特别是单调性和局部性?
  • RQ3能否推导出一个新质量函数族,满足所有公理,同时推广如归一化切分和非归一化切分等现有方法?
  • RQ4自适应尺度模块度中的参数 $M$ 和 $γ$ 如何影响检测到的聚类的分辨率与灵活性?
  • RQ5该公理化框架能否用于正式证明或改进网络科学中现有的聚类质量函数?

主要发现

  • 模块度不满足单调性和局部性公理,表明其在图聚类理论一致性方面存在根本性局限。
  • 自适应尺度模块度满足所有六条所提公理,包括新颖的图特有公理——连续性和局部性。
  • 自适应尺度模块度被证明具有丰富性,即对于任意聚类,均存在一个图及其边权重,使得该聚类达到最大质量。
  • 当 $M \to 0$ 时,自适应尺度模块度收敛至等价于归一化切分的形式;当 $M \to \infty$ 时,其收敛至非归一化切分。
  • 当 $\gamma = 0$ 时,得到一个与Reichardt-Bornholdt模块度相似的参数形式,表明该模型可统一多种现有方法。
  • 偏导数分析证实,增加内部边权重和减少外部边权重可提升质量评分,以数学上严谨的方式验证了单调性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。