[论文解读] Open Graph Benchmark: Datasets for Machine Learning on Graphs
Open Graph Benchmark (OGB) 提供多样化的、大规模的图数据集集合,具有标准化的划分、评估指标,以及端到端的管线,以推进可扩展且可重复的图学习研究。
We present the Open Graph Benchmark (OGB), a diverse set of challenging and realistic benchmark datasets to facilitate scalable, robust, and reproducible graph machine learning (ML) research. OGB datasets are large-scale, encompass multiple important graph ML tasks, and cover a diverse range of domains, ranging from social and information networks to biological networks, molecular graphs, source code ASTs, and knowledge graphs. For each dataset, we provide a unified evaluation protocol using meaningful application-specific data splits and evaluation metrics. In addition to building the datasets, we also perform extensive benchmark experiments for each dataset. Our experiments suggest that OGB datasets present significant challenges of scalability to large-scale graphs and out-of-distribution generalization under realistic data splits, indicating fruitful opportunities for future research. Finally, OGB provides an automated end-to-end graph ML pipeline that simplifies and standardizes the process of graph data loading, experimental setup, and model evaluation. OGB will be regularly updated and welcomes inputs from the community. OGB datasets as well as data loaders, evaluation scripts, baseline code, and leaderboards are publicly available at https://ogb.stanford.edu .
研究动机与目标
- 通过引入跨节点、链接和图预测任务的大规模、多样化图数据集,解决缺乏可扩展、现实的图 ML 基准测试的问题。
- 提供领域特定的现实数据划分和评估指标,以实现公平、可重复的模型比较。
- 提供自动化的端到端管线(数据加载、划分、评估)和公开的排行榜,以加速研究和基准测试。
提出的方法
- 引入统一的基准套件(OGB),其数据集覆盖自然、社会和信息领域。
- 定义三类图 ML 任务类别:节点属性预测、边/链接属性预测、图属性预测。
- 为每个数据集提供领域特定的现实数据划分和标准化的评估指标。
- 在与 PyTorch 兼容的框架内开发自动化的 OGB 数据加载器和评估器(并支持 PyTorch Geometric 和 DGL)。
- 在所有数据集上使用具有代表性的 GNN 和小批量训练方法进行广泛的基线基准测试。
- 公开代码、基线和排行榜,并维护一个持续的社区驱动的代码库。
实验结果
研究问题
- RQ1大规模、多样化的图数据集如何影响图 ML 模型的可扩展性和泛化能力?
- RQ2现实数据划分如何揭示跨领域的分布外泛化和模型鲁棒性?
- RQ3统一的数据加载、评估和基准测试管线是否能够在真实世界图上实现对 GNN 的公平、可重复比较?
主要发现
- OGB 数据集具有大规模特征,从小型到大型图,覆盖多个领域和任务。
- 现实数据划分(非随机)揭示了显著的泛化差距和分布外评估中的挑战。
- 在内存受限的情况下,微批量 GNN 可能在性能上与全批量方法相竞争甚至优越,并且有正则化的好处。
- 在现实数据划分下,基线结果显示训练和测试之间存在显著的性能差距,突出泛化挑战。
- 具有数据加载器、评估器和排行榜的标准化管线有助于实现可重复的基准测试和进展跟踪。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。