Skip to main content
QUICK REVIEW

[论文解读] Graph Degree Linkage: Agglomerative Clustering on a Directed Graph

Wei Zhang, Xiaogang Wang|arXiv (Cornell University)|Aug 25, 2012
Advanced Clustering Algorithms Research参考文献 1被引用 23
一句话总结

本文提出图度链接(Graph Degree Linkage, GDL),一种新颖的凝聚聚类算法,利用有向K近邻图中的入度和出度来度量聚类亲和力。通过结合平均入度(密度代理)与平均出度(局部几何),GDL在噪声和多尺度聚类下表现出鲁棒性,在图像聚类与物体匹配任务中展现出高效率与简洁性,优于当前最先进方法。

ABSTRACT

This paper proposes a simple but effective graph-based agglomerative algorithm, for clustering high-dimensional data. We explore the different roles of two fundamental concepts in graph theory, indegree and outdegree, in the context of clustering. The average indegree reflects the density near a sample, and the average outdegree characterizes the local geometry around a sample. Based on such insights, we define the affinity measure of clusters via the product of average indegree and average outdegree. The product-based affinity makes our algorithm robust to noise. The algorithm has three main advantages: good performance, easy implementation, and high computational efficiency. We test the algorithm on two fundamental computer vision problems: image clustering and object matching. Extensive experiments demonstrate that it outperforms the state-of-the-arts in both applications.

研究动机与目标

  • 解决经典凝聚聚类在计算机视觉中常见的高维、噪声和多尺度数据下的局限性。
  • 探索图论中入度与出度在聚类中被低估的作用,特别是捕捉局部密度与几何结构的能力。
  • 开发一种简单但高效的聚类算法,在真实视觉任务(如图像聚类与物体匹配)中超越现有方法。
  • 提供一种基于图的、有原则的替代传统链接方法,更好地保持流形结构,同时抵抗噪声与异常值。

提出的方法

  • 从高维数据的成对距离构建有向K近邻(K-NN)图,以建模局部流形结构。
  • 将顶点对聚类的结构亲和力定义为其平均入度(顶点附近的密度)与平均出度(与聚类的相似性)的乘积。
  • 通过聚合两个聚类中所有顶点的入度与出度乘积,计算聚间亲和力,实现对不同密度聚类的鲁棒分离。
  • 在凝聚聚类框架中使用基于乘积的亲和力度量,迭代合并最相似的聚类,直至满足停止准则。
  • 采用固定参数集(如K=35, n_T=50),并通过后处理消除基于K-NN图结构的异常值聚类。
  • 仅依赖K-NN图进行亲和力计算与异常值检测,避免依赖外部几何先验。

实验结果

研究问题

  • RQ1有向K近邻图中的入度与出度能否作为凝聚聚类中聚类亲和力的有效且互补的度量?
  • RQ2与标准链接或谱聚类相比,入度与出度的乘积如何提升对噪声与异常值的鲁棒性?
  • RQ3该基于图的方法能否有效聚类具有不同密度、大小与形状的数据——这在真实视觉数据中很常见?
  • RQ4所提出的方法是否在图像聚类与物体匹配等具有挑战性的视觉应用中优于当前最先进聚类算法?

主要发现

  • 在合成多尺度数据集上,GDL优于当前最先进方法(包括亲和传播、谱聚类与有向图谱聚类),能正确识别具有不同密度与形状的聚类。
  • 在物体匹配任务中,GDL在95.6%的随机试验中取得的F-score高于ACC与GS,覆盖不同形变程度、异常值数量与共用子图像数量。
  • 该算法对噪声与异常值表现出强鲁棒性,其入度-出度乘积可有效分离空间邻近但密度不同的聚类。
  • 该方法具有高计算效率,易于实现,且在广泛参数设置下性能稳定,尤其在考虑的顶层聚类数(n_T)方面表现突出。
  • 基于乘积的亲和力度量有效捕捉了聚间入度与出度之间的相关性,该相关性在不同聚类间保持微弱,从而实现清晰分离。
  • 基于K-NN图的后处理能成功移除异常值聚类,无需额外几何信息,从而提升最终聚类准确率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。