Skip to main content
QUICK REVIEW

[论文解读] Sub-graph Contrast for Scalable Self-Supervised Graph Representation Learning

Yizhu Jiao, Yun Xiong|arXiv (Cornell University)|Sep 22, 2020
Advanced Graph Neural Networks参考文献 37被引用 24
一句话总结

本文提出 Subg-Con,一种可扩展的自监督图表示学习方法,通过在每个节点为中心的采样子图上进行对比学习,而非全图,以捕捉区域结构信息。通过在小型、多样化的子图上进行训练,Subg-Con 在显著降低内存和训练时间的同时,实现了最先进的性能,尤其在 Reddit 等大规模图上表现优异,且在下游任务中保持了强大的泛化能力。

ABSTRACT

Graph representation learning has attracted lots of attention recently. Existing graph neural networks fed with the complete graph data are not scalable due to limited computation and memory costs. Thus, it remains a great challenge to capture rich information in large-scale graph data. Besides, these methods mainly focus on supervised learning and highly depend on node label information, which is expensive to obtain in the real world. As to unsupervised network embedding approaches, they overemphasize node proximity instead, whose learned representations can hardly be used in downstream application tasks directly. In recent years, emerging self-supervised learning provides a potential solution to address the aforementioned problems. However, existing self-supervised works also operate on the complete graph data and are biased to fit either global or very local (1-hop neighborhood) graph structures in defining the mutual information based loss terms. In this paper, a novel self-supervised representation learning method via Subgraph Contrast, namely extsc{Subg-Con}, is proposed by utilizing the strong correlation between central nodes and their sampled subgraphs to capture regional structure information. Instead of learning on the complete input graph data, with a novel data augmentation strategy, extsc{Subg-Con} learns node representations through a contrastive loss defined based on subgraphs sampled from the original graph instead. Compared with existing graph representation learning approaches, extsc{Subg-Con} has prominent performance advantages in weaker supervision requirements, model learning scalability, and parallelization. Extensive experiments verify both the effectiveness and the efficiency of our work compared with both classic and state-of-the-art graph representation learning approaches on multiple real-world large-scale benchmark datasets from different domains.

研究动机与目标

  • 解决现有图神经网络因需要全图计算而导致的可扩展性限制,以及由此引发的高内存和训练成本问题。
  • 通过使用较弱监督信号的自监督表示学习,减少对昂贵节点标签的依赖。
  • 通过捕捉更丰富的区域结构信息,克服现有自监督方法仅关注全局或一跳局部结构的偏差。
  • 通过基于子图的学习而非全图处理,提升训练效率并实现有效的并行化。

提出的方法

  • 该方法为每个节点采样子图,包括节点及其指定范围内的邻域,以形成对比学习的正样本对。
  • 采用对比损失函数,最大化中心节点表示与其对应子图表示之间的一致性,利用二者之间的强相关性。
  • 采用数据增强策略生成多样化子图,以提升模型鲁棒性和泛化能力,避免对局部或全局结构的过拟合。
  • 模型使用图神经网络编码器对子图进行嵌入,并在无需节点标签或全图计算的情况下学习表示。
  • 训练在少量采样子图(例如 50–500 个)上进行,与全图方法相比,显著降低了内存和计算开销。
  • 该框架通过分布式子图处理支持在多个 GPU 上高效并行化,实现在 Reddit 和 Flickr 等大规模图上的可扩展训练。

实验结果

研究问题

  • RQ1基于子图的对比学习是否能在不依赖全图的情况下,有效捕捉图中的区域结构信息?
  • RQ2在大规模图上,Subg-Con 与现有自监督和监督图神经网络方法相比,在性能和效率方面表现如何?
  • RQ3子图大小和采样策略在多大程度上影响所学表示的质量?
  • RQ4Subg-Con 是否能在保持性能的前提下实现高效并行化,从而适用于现实世界的大规模图?

主要发现

  • Subg-Con 在多个基准数据集(包括 Reddit、Flickr 和 PPI)上实现了最先进性能,在节点分类任务中优于监督和无监督基线方法。
  • 在 Reddit 数据集上,与全图方法相比,Subg-Con 显著降低了训练时间和内存使用量,当仅使用 2 个节点的子图时,F1 分数最高下降 20 分。
  • 在 Citeseer 数据集中,子图大小为 10 时模型表现最优;在其他数据集中,子图大小为 20 时表现最佳,表明更大的子图能捕捉更多有信息量的区域结构,但过大的子图在稀疏图中可能引入噪声。
  • 在 20,000 个子图上使用多个 GPU 进行并行训练,处理速度显著提升且性能无损失,证明了其高度可扩展性和高效性。
  • 在 Reddit 等大规模图上,仅使用 50 个子图进行训练仍能获得强性能,证实区域信息足以支持高质量的表示学习。
  • 该方法在社交网络、引文网络和生物医学图等多种领域中表现出强泛化能力,表明其具有广泛适用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。