Skip to main content
QUICK REVIEW

[论文解读] Bayesian Semi-supervised Learning with Graph Gaussian Processes

Yin Cheng Ng, Nicolò Colombo|arXiv (Cornell University)|Sep 12, 2018
Gaussian Processes and Bayesian Inference参考文献 40被引用 20
一句话总结

该论文提出了一种基于图高斯过程(GGP)的贝叶斯半监督学习模型,利用图结构和节点特征,在极少标注数据下实现了最先进性能。该方法采用基于诱导点的变分推断,实现可扩展训练,无需基于验证集的早停策略,其在标注数据稀缺的主动学习中优于图神经网络和标签传播方法。

ABSTRACT

We propose a data-efficient Gaussian process-based Bayesian approach to the semi-supervised learning problem on graphs. The proposed model shows extremely competitive performance when compared to the state-of-the-art graph neural networks on semi-supervised learning benchmark experiments, and outperforms the neural networks in active learning experiments where labels are scarce. Furthermore, the model does not require a validation data set for early stopping to control over-fitting. Our model can be viewed as an instance of empirical distribution regression weighted locally by network connectivity. We further motivate the intuitive construction of the model with a Bayesian linear model interpretation where the node features are filtered by an operator related to the graph Laplacian. The method can be easily implemented by adapting off-the-shelf scalable variational inference algorithms for Gaussian processes.

研究动机与目标

  • 开发一种针对图结构数据的高效贝叶斯半监督学习模型。
  • 解决图学习中常见的低标注场景下过拟合的问题。
  • 通过利用变分下界实现正则化,消除模型训练中对验证集的需求。
  • 通过使用最优获取函数选择信息量丰富的节点,提升主动学习中的泛化能力。
  • 为深度图神经网络提供一种有原则的贝叶斯替代方案,具备更优的不确定性校准能力和样本效率。

提出的方法

  • 该模型在节点函数上使用高斯过程先验,其核函数通过图拉普拉斯滤波来编码关系归纳偏置。
  • 采用变分诱导点近似以实现可扩展的推断,使模型能够应用于大规模图。
  • 预测均值被计算为标记节点特征的加权平均,权重由图连通性和核相似性决定。
  • 该方法可解释为基于网络结构进行局部加权的经验分布回归,与核均值嵌入方法相关联。
  • 使用基于期望改进(SOPT)的获取函数,以在主动学习中选择下一个最具信息量的节点。
  • 通过ADAM优化器进行端到端训练,联合优化超参数和诱导点。

实验结果

研究问题

  • RQ1贝叶斯高斯过程模型是否能在半监督节点分类任务中达到与图神经网络相当的性能?
  • RQ2所提出的图高斯过程模型在仅有极少标注样本的主动学习中表现如何?
  • RQ3该模型是否能在不依赖验证集进行早停的情况下避免过拟合?
  • RQ4图拉普拉斯在塑造模型归纳偏置方面起到什么作用?
  • RQ5在数据稀缺条件下,该模型的性能与标签传播和GCN相比如何?

主要发现

  • 在主动学习中,使用SOPT获取函数,GGP在Cora数据集上达到AUC 0.733 ± 0.001,在Citeseer数据集上达到AUC 0.678 ± 0.002,优于GCN和标签传播方法。
  • 仅初始一个标记节点时,GGP在所有标签数量(最多50个)下均取得高于GCN和标签传播的测试准确率。
  • GGP在不同随机初始化下的性能方差显著更小,表明其对初始化具有更强鲁棒性。
  • 该模型无需验证集进行早停,因为变分下界本身即可有效防止过拟合。
  • SOPT获取函数对初始标记节点的选择不敏感,学习曲线中误差条极小,表明其稳定性高。
  • 在随机获取策略下,GGP的性能比GCN更稳定,表明其对数据洗牌具有更强的内在鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。