Skip to main content
QUICK REVIEW

[论文解读] TUDataset: A collection of benchmark datasets for learning with graphs

Morris, Christopher, Kriege, Nils M.|arXiv (Cornell University)|Jul 16, 2020
Advanced Graph Neural Networks参考文献 74被引用 302
一句话总结

本文介绍了 TUDataset,这是一个包含超过 120 个用于监督学习的图数据集的集合,具有标准化的评估程序、Python 数据加载器以及基线核方法和 GNN 实现;还报道了对图核和图神经网络在子集上的对比研究。

ABSTRACT

Recently, there has been an increasing interest in (supervised) learning with graph data, especially using graph neural networks. However, the development of meaningful benchmark datasets and standardized evaluation procedures is lagging, consequently hindering advancements in this area. To address this, we introduce the TUDataset for graph classification and regression. The collection consists of over 120 datasets of varying sizes from a wide range of applications. We provide Python-based data loaders, kernel and graph neural network baseline implementations, and evaluation tools. Here, we give an overview of the datasets, standardized evaluation procedures, and provide baseline experiments. All datasets are available at www.graphlearning.io. The experiments are fully reproducible from the code available at www.github.com/chrsmrrs/tudataset.

研究动机与目标

  • 提供大量多样化的基准图数据集,以标准化图学习中的评估。
  • 促进跨领域的图核与图神经网络(GNN)之间的公平比较。
  • 向社区提供 Python 数据加载器、基线实现以及可重复的评估协议。
  • 评估核方法和 GNN 的基线性能,并突出传统核在何处仍具竞争力。

提出的方法

  • 汇集并描述来自小分子、生物信息学、计算机视觉、社交网络和合成图等领域的 120+ 图数据集的多样化集合。
  • 提供符合 PyTorch Geometric 和 DGL 的标准数据集格式与 Python 接口。
  • 实现常见图核(如 Weisfeiler-Lehman 变体、SP、Graphlet)以及标准 GNN 基线(Gin 变体)以进行基线比较。
  • 提出标准化评估程序:通过 LibSVM/LibLinear 对核方法进行交叉验证、使用 Adam 对 GNN 进行端到端优化,以及一致的超参数调优。
  • 对 TUDataset 的子集进行实验性研究,比较核方法和 GNN,在包括大规模分子回归任务(Zinc、QM9、Alchemy)上。
  • 通过代码仓库和文档确保可重复性(graphlearning.io 和 GitHub)。

实验结果

研究问题

  • RQ1经典图核在广泛、标准化的图分类基准上与现代 GNN 的比较如何?
  • RQ2在小中大规模图数据集上,哪些基线表现最佳,以及可扩展性权衡是什么?
  • RQ3标准化评估程序是否使跨图学习方法的比较更公平、可重复?
  • RQ4数据集规模(从小到大)对核方法与 GNN 相对性能的影响?
  • RQ5统一的数据集集合如何促进跨领域的图表示学习进展?

主要发现

  • 图核(尤以 WL-OA 为著)在小型数据集上常具有竞争力,但由于 Gram 矩阵计算,在大型数据集上扩展性较差。
  • 在较大数据集上,1-WL 核和 GNN 基线(Gin 变体)表现具有竞争力,在某些数据集上,神经网络方法获得更大影响力(如 github_stargazers)。
  • 专门化架构如 MPNN 在大型分子回归任务上相对于通用 GNN 基线可带来显著提升。
  • 对于大型分子任务(Zinc、Alchemy、QM9),显式分子架构(MPNN)胜过基线基于 GINE 的方法,突显领域特定模型的价值。
  • 综合结果显示,经典图核结合 SVM 在图分类上仍然具有高度竞争力,尤其在较小数据集上,而 GNN 在某些中到大型任务上具有优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。