[论文解读] Temporal Graph Benchmark for Machine Learning on Temporal Graphs
本论文介绍 Temporal Graph Benchmark (TGB),这是一个大规模、多样化的时序图数据集集合,具有标准化评估和开放排行榜,用以在现实场景下评估动态链接和节点属性预测方法。
We present the Temporal Graph Benchmark (TGB), a collection of challenging and diverse benchmark datasets for realistic, reproducible, and robust evaluation of machine learning models on temporal graphs. TGB datasets are of large scale, spanning years in duration, incorporate both node and edge-level prediction tasks and cover a diverse set of domains including social, trade, transaction, and transportation networks. For both tasks, we design evaluation protocols based on realistic use-cases. We extensively benchmark each dataset and find that the performance of common models can vary drastically across datasets. In addition, on dynamic node property prediction tasks, we show that simple methods often achieve superior performance compared to existing temporal graph models. We believe that these findings open up opportunities for future research on temporal graphs. Finally, TGB provides an automated machine learning pipeline for reproducible and accessible temporal graph research, including data loading, experiment setup and performance evaluation. TGB will be maintained and updated on a regular basis and welcomes community feedback. TGB datasets, data loaders, example codes, evaluation setup, and leaderboards are publicly available at https://tgb.complexdatalab.com/.
研究动机与目标
- 创建覆盖多个领域和任务的面向时序图学习的大规模、多样化且现实的基准。
- 标准化评估协议,以反映真实世界用例并减轻对性能的过于乐观报告。
- 提供一个用于数据加载、实验设置和可重复性能基准测试的自动化流水线,并在公开排行榜上展示。
- 展示模型在不同数据集和任务上的性能差异显著,推动更广泛的评估和方法开发。
- 引入一个新颖的节点亲和力预测任务,以扩大对节点级时序图学习的覆盖。
提出的方法
- 组建七个新颖的时序图数据集,涵盖社交、互动、评价、交通和贸易领域,具有大规模(节点、边、时间戳)和多样化属性。
- 设计混合历史负样本和随机负样本的评估协议,用于动态链接属性预测,并以平均倒数排名(MRR)作为主要度量。
- 引入用于动态节点属性的节点亲和力预测,并以 NDCG@10 评估所提出亲和力的排序质量。
- 提供一个自动化的机器学习流水线,下载、处理为 TemporalData 格式,并在公开排行榜上运行可重复的实验。
- 在所有数据集上对一组现有 TG 模型(如 DyRep、TGN、CAWN、TCL、GraphMixer、NAT、TGAT)和启发式方法(EdgeBank 变体)进行基准测试。
- 比较在小型、中型和大型数据集上的表现,以突出数据集依赖的模型优势与劣势。
实验结果
研究问题
- RQ1最先进的时序图模型在大规模、多样化的近似真实世界数据集上进行动态链接属性预测时的表现如何?
- RQ2模型在不同数据集上的表现是否显著不同,是否表明单数据集基准在时序图中的局限?
- RQ3简单的启发式方法在动态节点属性预测方面是否能与学习型时序图模型竞争,在何种条件下?
- RQ4哪种评估协议最能反映真实世界的时序图使用场景,特别是在负采样和排名指标方面?
- RQ5将节点亲和力预测作为节点级任务的价值何在,应该如何衡量?
主要发现
- 时序图基准在动态链接预测上揭示了跨数据集的显著性能差异,强调需要多样化的评估。
- 在小型数据集上,某些神经时序图模型(如 NAT、CAWN)优于其他模型,但排名在不同数据集上显著变化;在 tgbl-wiki 上 NAT 表现最佳,而在 tgbl-review 上 GraphMixer 和 TGAT 登上榜首。
- 在中型/大型数据集上,TGN 通常表现出色,但 EdgeBank 启发式在某些任务上仍具竞争力(如 tgbl-coin)。
- 节点亲和力预测结果显示简单的启发式方法(持续性预测、移动平均)在若干数据集上常常超过最先进的时序图方法,表明在节点层面的方法开发仍有空间。
- 集成的 TGB 流水线使实验可复现并提供公开排行榜,促进公平比较与时序图学习的快速进展。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。