[论文解读] Attributed Graph Clustering via Adaptive Graph Convolution
本文提出自适应图卷积(AGC),一种新颖的属性图聚类方法,通过高阶图卷积捕捉全局聚类结构,并基于类内距离自适应选择最优卷积阶数 $k$。AGC 通过有效整合节点特征与图结构,在极低超参数调优下于基准数据集上实现了卓越的聚类准确率,优于当前最先进方法。
Attributed graph clustering is challenging as it requires joint modelling of graph structures and node attributes. Recent progress on graph convolutional networks has proved that graph convolution is effective in combining structural and content information, and several recent methods based on it have achieved promising clustering performance on some real attributed networks. However, there is limited understanding of how graph convolution affects clustering performance and how to properly use it to optimize performance for different graphs. Existing methods essentially use graph convolution of a fixed and low order that only takes into account neighbours within a few hops of each node, which underutilizes node relations and ignores the diversity of graphs. In this paper, we propose an adaptive graph convolution method for attributed graph clustering that exploits high-order graph convolution to capture global cluster structure and adaptively selects the appropriate order for different graphs. We establish the validity of our method by theoretical analysis and extensive experiments on benchmark datasets. Empirical results show that our method compares favourably with state-of-the-art methods.
研究动机与目标
- 为解决现有基于 GCN 的方法中固定阶数图卷积的局限性,这些方法通常难以捕捉大规模或稀疏属性图中的全局聚类结构。
- 开发一种方法,可针对不同图类型自适应选择最优卷积阶数 $k$,从而在多样化网络拓扑中提升聚类性能。
- 实现节点属性与图结构的有效联合建模,无需深度神经网络训练,从而提升效率与稳定性。
- 建立理论基础明确的 $k$ 选择准则,防止过平滑,并确保聚类所需的高质量特征表示。
提出的方法
- 提出 $k$ 阶图卷积作为低通滤波器,用于平滑节点特征,捕捉超越直接邻居的长程依赖关系。
- 提出基于类内距离 $d_{\text{intra}}(k)$ 的自适应 $k$ 选择策略,其中 $k$ 的选择满足 $d_{\text{intra}}(k-1) > 0$,以避免过平滑。
- 在平滑后的特征上应用谱聚类,获得最终的节点聚类分配,实现特征学习与聚类的解耦。
- 采用无需训练的解析公式化图卷积,避免深度神经网络训练,降低计算成本。
- 引入验证准则,确保所选 $k$ 对应于稳定且高质量的聚类划分。
- 设计方法具备可扩展性与高效性,运行时间与模型深度无关,仅依赖于 $k$ 和图大小。
实验结果
研究问题
- RQ1与固定阶数的 GCN 层相比,高阶图卷积如何提升聚类性能?
- RQ2对不同属性图结构,自适应选择卷积阶数 $k$ 是否能带来更优的聚类结果?
- RQ3所提出的类内距离准则 $d_{\text{intra}}(k-1) > 0$ 是否能可靠识别出防止过平滑的最优 $k$ 值?
- RQ4与当前最先进基于 GCN 的属性聚类方法(如 GAE、MGAE 和 ARGE)相比,AGC 在性能与效率上表现如何?
- RQ5AGC 在不同类型属性图(包括稀疏引文网络与密集网页网络)上的泛化能力如何?
主要发现
- AGC 显著优于仅使用特征或仅使用结构的聚类基线方法,充分证明了联合建模属性与结构的优势。
- 在 Cora、Citeseer 和 Pubmed 数据集上,AGC 显著优于最强基线 MGAE,准确率提升最高达 4.5 个百分点,NMI 指标亦有提升。
- 所选 $k$ 值(Cora 为 12,Citeseer 为 55,Pubmed 为 60,Wiki 为 8)与 [0,60] 范围内的最优 $k$ 值高度吻合,验证了自适应选择准则的有效性。
- AGC 表现高度稳定,所有数据集上准确率、NMI 和 F1 的标准差均低于 1%,表明其鲁棒性优异。
- 尽管使用了更高阶卷积,AGC 仍比基于训练的方法(如 ARGE 和 ARVGE)更高效,在 Pubmed 等大规模图上推理速度更快。
- 方法有效避免了过平滑现象,表现为当 $d_{\text{intra}}(k) \leq 0$ 时性能下降,进一步验证了选择准则的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。