[论文解读] RelBench v2: A Large-Scale Benchmark and Repository for Relational Data
RelBench v2 在 RelBench 基准上扩展了四个新的大规模关系数据集,新增自动完成任务,并整合外部基准和框架以实现对关系深度学习的全面评估。
Relational deep learning (RDL) has emerged as a powerful paradigm for learning directly on relational databases by modeling entities and their relationships across multiple interconnected tables. As this paradigm evolves toward larger models and relational foundation models, scalable and realistic benchmarks are essential for enabling systematic evaluation and progress. In this paper, we introduce RelBench v2, a major expansion of the RelBench benchmark for RDL. RelBench v2 adds four large-scale relational datasets spanning scholarly publications, enterprise resource planning, consumer platforms, and clinical records, increasing the benchmark to 11 datasets comprising over 22 million rows across 29 tables. We further introduce autocomplete tasks, a new class of predictive objectives that require models to infer missing attribute values directly within relational tables while respecting temporal constraints, expanding beyond traditional forecasting tasks constructed via SQL queries. In addition, RelBench v2 expands beyond its native datasets by integrating external benchmarks and evaluation frameworks: we translate event streams from the Temporal Graph Benchmark into relational schemas for unified relational-temporal evaluation, interface with ReDeLEx to provide uniform access to 70+ real-world databases suitable for pretraining, and incorporate 4DBInfer datasets and tasks to broaden multi-table prediction coverage. Experimental results demonstrate that RDL models consistently outperform single-table baselines across autocomplete, forecasting, and recommendation tasks, highlighting the importance of modeling relational structure explicitly.
研究动机与目标
- 为关系深度学习(RDL)在跨领域、跨多个表的大规模数据库上提供可扩展的基准测试动机。
- 提供四个新的大规模关系数据集,以丰富关系结构和预测挑战。
- 引入在时间约束下推断关系表中缺失属性值的自动完成预测任务。
- 整合外部基准和评估框架(TGB、ReDeLEx、4DBInfer),实现统一的关系–时间和多数据库评估。
提出的方法
- 通过 PyTorch Frame 将原始行数据编码为初始节点嵌入,采用 ResNet 表格模型。
- 在种子时间点对每个实体节点周围执行时间感知的子图抽样。
- 使用带有基于求和的邻居聚合的异构 GraphSAGE 模型更新关系嵌入。
- 应用任务特定的预测头,生成自动完成、预测和推荐任务的预测。
- 将外部基准(TGB)转化为 RelBench 架构以进行统一评估。
- 在基线(LightGBM 等)上进行基准测试,以展示关系建模的优势。

实验结果
研究问题
- RQ1大规模的多表关系数据集如何影响 RDL 模型在自动完成、 forecasting、和推荐任务上的性能?
- RQ2与单表基线相比,显式建模关系结构对预测准确性的影响如何?
- RQ3自动完成任务如何影响 RDL 的评估和在推断缺失值时防止信息泄露的能力?
- RQ4外部基准和框架(TGB、ReDeLEx、4DBInfer)为 RelBench 的全面性和可迁移性带来哪些价值?
- RQ5RDL 模型在学术数据、ERP、消费平台和医疗等多样化关系域上的泛化程度到何种程度?
主要发现
- RDL 模型在自动完成、预测和推荐任务上始终优于单表基线。
- 自动完成信号受益于关系上下文,对类别不平衡和稀疏特征具有鲁棒性。
- 实体为中心的多类别预测任务显示出关系建模带来的更大收益,凸显关系信号的重要性。
- 与外部基准(TGB、ReDeLEx、4DBInfer)的整合扩展了评估覆盖范围,使跨数据库、时间维度和诊断基准成为可能。
- 四个新数据集(rel-arxiv、rel-salt、rel-ratebeer、rel-mimic)将 RelBench 的数据规模扩展至 11 个数据集、超过 2200 万行、29 张表。
- 在 RelBench v2 上,使用带时间子图抽样和基于 GraphSAGE 的体系结构的 RDL 在自动完成、预测和推荐任务上均表现强劲。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。