Skip to main content
QUICK REVIEW

[论文解读] Wiki-CS: A Wikipedia-Based Benchmark for Graph Neural Networks

Péter Mernyei, Cătălina Cangea|arXiv (Cornell University)|Jul 6, 2020
Advanced Graph Neural Networks参考文献 16被引用 33
一句话总结

Wiki-CS 引入了一个来自维基百科的图数据集,覆盖 10 个与计算机科学相关的类别且连通性较高,用于对半监督节点分类和单关系链接预测的 GNN 进行基准测试。它在这个新领域中显示出标准 GNN 的竞争性能。

ABSTRACT

We present Wiki-CS, a novel dataset derived from Wikipedia for benchmarking Graph Neural Networks. The dataset consists of nodes corresponding to Computer Science articles, with edges based on hyperlinks and 10 classes representing different branches of the field. We use the dataset to evaluate semi-supervised node classification and single-relation link prediction models. Our experiments show that these methods perform well on a new domain, with structural properties different from earlier benchmarks. The dataset is publicly available, along with the implementation of the data pipeline and the benchmark experiments, at https://github.com/pmernyei/wiki-cs-dataset .

研究动机与目标

  • 通过引入具有不同结构属性的新领域,推动对 GNN 的稳健基准测试,超越传统的引用网络。
  • 从维基百科类别中创建一个具有高结点连通性的 10 类计算机科学相关数据集,用于半监督学习。
  • 提供训练/验证/测试划分以及特征表示,以实现一致、可重复的基准测试。

提出的方法

  • 通过清洗维基百科分类以形成 10 个计算机科学相关类别并裁剪多标签页面来构建 Wiki-CS。
  • 使用文章文本通过对预训练的 GloVe 向量取平均来生成 300 维的节点特征。
  • 使用 GCN、GAT 和 APPNP 进行半监督节点分类评估,同时加入非结构化基线(MLP、SVM)。
  • 在训练/验证/测试划分上使用 GraphStar、VGAE 及一个 MLP 基线进行单关系链接预测,并报告 ROC-AUC 和 AP。
  • 使用多个随机训练划分(20 次划分)来衡量鲁棒性,并报告带有 95% 自助法置信区间的平均准确率。

实验结果

研究问题

  • RQ1在 Wiki-CS 上,图神经网络的性能与传统的引用基准相比有何差异?
  • RQ2标准 GNN 架构(GCN、GAT、APPNP)是否在高连通性、基于维基百科的图上保持竞争力?
  • RQ3在 Wiki-CS 上用于节点分类的非结构化模型(MLP、SVM)的基线性能如何?
  • RQ4相对于已建立的基准,Wiki-CS 上的链接预测方法表现如何?

主要发现

  • GCN、GAT 和 APPNP 在 Wiki-CS 的节点分类中,准确率高于非结构化基线。
  • 在所测试的模型中,APPNP 得到最高的节点分类准确率(79.84% 平均值,95% CI)。
  • SVM 和 MLP 在节点分类上的准确率较低,分别为 72.63% 和 73.17%。
  • Wiki-CS 展现出显著更高的连通性(平均度 36.94)和更短的平均最短路径(3.01),与 Cora/CiteSeer/PubMed 相比,指示了不同的邻域结构。
  • 在链接预测中,GraphStar 和 MLP 的 ROC-AUC 超过 0.97,GraphStar 在所报道的运行中拥有最高的 ROC-AUC(0.9793)。
  • 即使在每个类别仅 10,000 个训练样本的情况下,GraphStar 和 MLP 的链接预测指标仍然很高,表明在该数据集的负采样较易。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。