Skip to main content
QUICK REVIEW

[论文解读] GEMSEC: Graph Embedding with Self Clustering

Benedek Rózemberczki, Ryan Davies|arXiv (Cornell University)|Feb 12, 2018
Complex Network Analysis Techniques参考文献 40被引用 66
一句话总结

GEMSEC 同时学习节点嵌入和聚类,其受邻域保持和社交正则化聚类的引导,从而实现具有竞争力的社区检测和下游任务。

ABSTRACT

Modern graph embedding procedures can efficiently process graphs with millions of nodes. In this paper, we propose GEMSEC -- a graph embedding algorithm which learns a clustering of the nodes simultaneously with computing their embedding. GEMSEC is a general extension of earlier work in the domain of sequence-based graph embedding. GEMSEC places nodes in an abstract feature space where the vertex features minimize the negative log-likelihood of preserving sampled vertex neighborhoods, and it incorporates known social network properties through a machine learning regularization. We present two new social network datasets and show that by simultaneously considering the embedding and clustering problems with respect to social properties, GEMSEC extracts high-quality clusters competitive with or superior to other community detection algorithms. In experiments, the method is found to be computationally efficient and robust to the choice of hyperparameters.

研究动机与目标

  • 通过将聚类整合到嵌入目标中,激励改进图嵌入中的社区检测。
  • 开发一个可扩展的、基于序列的嵌入方法,联合优化嵌入和聚类目标。
  • 通过正则化引入社交网络属性,以产生连贯且自然的社区。
  • Demonstrate scalability to large graphs and robustness to hyperparameter settings.
  • Provide new social network datasets and demonstrate improved clustering and downstream tasks.

提出的方法

  • 在跳字样的嵌入中加入聚类代价,与嵌入目标并行优化。
  • 使用负采样来近似分区函数并实现可扩展优化。
  • 引入一个退火式聚类权重 γ,以防止早期聚类主导嵌入。
  • 引入一个平滑正则化项,使用邻域重叠作为边权,以更好地将嵌入与社区对齐。
  • 通过梯度更新(Adam)优化节点表示 f(v) 与聚类中心 μ,并给出梯度的明确方程。
  • 提供基于 TensorFlow 的实现和 GEMSEC 的训练过程(Algorithm 1)。

实验结果

研究问题

  • RQ1嵌入和聚类能否联合学习以改进面向社区的表示?
  • RQ2增加聚类目标是否相对标准的邻域保持嵌入在模块性和聚类质量方面有提升?
  • RQ3基于邻域重叠的平滑正则化如何影响社区一致性和对超参数的鲁棒性?
  • RQ4GEMSEC 的变体是否可扩展到大图并对参数选择具有鲁棒性?
  • RQ5GEMSEC 学习的嵌入是否提升下游任务,如音乐流派推荐?

主要发现

  • GEMSEC 的变体在 Facebook 数据集上实现了比若干基于邻域和面向社区的基线更高的模块性。
  • 正则化(平滑 GEMSEC)在对超参数的变化鲁棒性和聚类质量方面表现出一致改进。
  • GEMSEC2 和 Smooth GEMSEC2 往往优于基线,在某些数据集上有显著提升(如 Athletes)。
  • 在 Deezer 音乐流派预测中,GEMSEC2 在克罗地亚、匈牙利和罗马尼亚的 F1 得分高于竞争方法。
  • 该方法随着图规模线性扩展,随着图的增大仍保持高效。
  • 实证结果表明,联合嵌入和聚类能产生自然、分离良好的社区,并提升下游性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。