Skip to main content
QUICK REVIEW

[论文解读] Pre-Training Graph Neural Networks for Generic Structural Feature Extraction

Ziniu Hu, Changjun Fan|arXiv (Cornell University)|May 31, 2019
Advanced Graph Neural Networks参考文献 47被引用 24
一句话总结

本文提出了一种用于图神经网络(GNNs)的自监督预训练框架,通过在合成图上使用三种任务——去噪链接重建、中心性分数排序和聚类保持——来学习通用的结构特征。在多样化合成图上进行预训练,可在节点、链接和图级别下游任务中实现显著的性能提升,且仅需极少的标注数据。

ABSTRACT

Graph neural networks (GNNs) are shown to be successful in modeling applications with graph structures. However, training an accurate GNN model requires a large collection of labeled data and expressive features, which might be inaccessible for some applications. To tackle this problem, we propose a pre-training framework that captures generic graph structural information that is transferable across tasks. Our framework can leverage the following three tasks: 1) denoising link reconstruction, 2) centrality score ranking, and 3) cluster preserving. The pre-training procedure can be conducted purely on the synthetic graphs, and the pre-trained GNN is then adapted for downstream applications. With the proposed pre-training procedure, the generic structural information is learned and preserved, thus the pre-trained GNN requires less amount of labeled data and fewer domain-specific features to achieve high performance on different downstream tasks. Comprehensive experiments demonstrate that our proposed framework can significantly enhance the performance of various tasks at the level of node, link, and graph.

研究动机与目标

  • 解决在多样化应用中训练准确GNN时标注图数据有限的挑战。
  • 通过学习可迁移的结构表征,克服对昂贵且领域特定特征的依赖。
  • 开发一种无需真实标注图即可在多种图类型上泛化的预训练框架。
  • 通过利用预训练的结构知识,实现在下游任务中仅用极少标注数据即可有效微调GNN。

提出的方法

  • 在通过度校正随机块模型生成、具有可调统计特性的合成图上预训练GNN。
  • 使用三种自监督任务:去噪链接重建、中心性分数排序和聚类保持,以捕捉多层次的结构信息。
  • 在合成数据上端到端训练GNN,利用这些任务学习通用的结构归纳偏置。
  • 通过固定低层或微调选定层的方式,在下游任务上微调预训练GNN,当存在节点属性时进行特征拼接。
  • 在微调过程中,通过结合学习到的结构嵌入与任务特定特征来适应预训练模型。
  • 在低数据场景下评估节点分类、链接预测和图分类任务的性能。

实验结果

研究问题

  • RQ1GNN是否能通过在合成图上预训练来学习通用的图结构信息?
  • RQ2在标注数据有限的情况下,预训练能在多大程度上提升下游图学习任务的性能?
  • RQ3对于不同类型的下游任务,哪些预训练任务最具益处?
  • RQ4适应策略(如微调边界)如何影响下游性能?
  • RQ5在标注数据稀缺时,预训练对性能有何影响?

主要发现

  • 该预训练框架在六个节点分类任务的微F1值上平均提升了7.7%。
  • 即使在具有强节点属性的情况下,预训练模型仍优于仅使用属性或随机初始化的基线模型。
  • 聚类保持任务对节点分类的收益最大,而去噪链接重建任务对链接预测的帮助最多。
  • 图分类任务从中心性分数排序和去噪链接重建中获益最多,表明这两项任务在捕捉局部结构模式方面具有关键作用。
  • 当训练数据稀缺时,预训练带来的性能增益最大,尤其在10%训练数据时提升最为显著。
  • 在微调过程中固定嵌入层和第一个GNN层可获得最佳性能,证实了初始化和特征提取的双重价值。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。