Skip to main content
QUICK REVIEW

[论文解读] Self-Supervised Graph Representation Learning via Global Context Prediction

Zhen Peng, Yixiang Dong|arXiv (Cornell University)|Mar 3, 2020
Advanced Graph Neural Networks参考文献 33被引用 39
一句话总结

本文提出 S2GRL,一种自监督框架,通过预测节点对之间的跳数基的上下文位置来学习全球上下文感知的节点嵌入,在许多无监督方法中表现更优,甚至可与一些有监督模型媲美。

ABSTRACT

To take full advantage of fast-growing unlabeled networked data, this paper introduces a novel self-supervised strategy for graph representation learning by exploiting natural supervision provided by the data itself. Inspired by human social behavior, we assume that the global context of each node is composed of all nodes in the graph since two arbitrary entities in a connected network could interact with each other via paths of varying length. Based on this, we investigate whether the global context can be a source of free and effective supervisory signals for learning useful node representations. Specifically, we randomly select pairs of nodes in a graph and train a well-designed neural net to predict the contextual position of one node relative to the other. Our underlying hypothesis is that the representations learned from such within-graph context would capture the global topology of the graph and finely characterize the similarity and differentiation between nodes, which is conducive to various downstream learning tasks. Extensive benchmark experiments including node classification, clustering, and link prediction demonstrate that our approach outperforms many state-of-the-art unsupervised methods and sometimes even exceeds the performance of supervised counterparts.

研究动机与目标

  • 在无标签的图数据中利用图结构固有的自然监督来激发节点表示学习。
  • 提出一种自监督框架,通过预测节点对之间的相对上下文位置(跳数)来编码全局拓扑结构。
  • 证明基于跳数的监督能产生与当今最先进的无监督方法以及某些有监督基线相当的表示。

提出的方法

  • 将每个节点的跳基全球上下文定义为在 k 跳内可到达的节点,并划分为若干主要类别(例如 1 跳、2 跳等)。
  • 训练一个编码器 f_ω,使其输出节点嵌入;使分类器 h_θ 能从嵌入中预测节点对之间的跳基上下文。
  • 使用对称交互代理 ⟨z_i, z_j⟩ = |z_i − z_j| 以确保上下文预测具备置换对称性。
  • 在主要上下文类别上优化跨类别目标,以学习全局上下文感知的表示。
  • 采用批采样来应对大规模图中的计算与类别不平衡挑战。
  • 探索主要类别构造的超参数,以平衡辨别性和泛化性。

实验结果

研究问题

  • RQ1全局图拓扑结构是否可以为自监督图表示学习提供无成本的监督信号?
  • RQ2预测节点对之间的跳基上下文位置是否能获得捕捉全局结构并提升下游任务的嵌入?
  • RQ3主要上下文类别的构造如何影响嵌入质量?
  • RQ4在标准基准上,S2GRL 与现有的无监督与有监督图表示方法相比如何?

主要发现

  • 在传导(transductive)节点分类中,S2GRL 在 Cora 达到 83.7%、在 Citeseer 达到 72.1%、在 Pubmed 达到 82.4%,超过了许多无监督基线。
  • 在归纳分类任务中,S2GRL 达到 66.0%(PPI)和 95.0%(Reddit),超过了若干基线。
  • 在聚类(NMI)方面,S2GRL 获得 0.540(Cora)、0.432(Citeseer)、0.332(Pubmed),与现有方法相当。
  • 在链路预测方面,S2GRL 在 BlogCatalog 的 AUC 为 80.4–78.2%、在 Flickr 的 AUC 为 91.4–89.8%,随边移除率变化,超越若干基线。
  • 可视化分析(t-SNE)表明所学习的嵌入反映了拓扑距离,支持全局上下文假设。
  • 将 1 跳、2 跳和 3 跳作为不同的主要类别,比过于细粒度的划分能得到更好的表示。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。