[論文レビュー] RelBench v2: A Large-Scale Benchmark and Repository for Relational Data
RelBench v2 は four new large-scale relational datasets を追加し、autocomplete タスクを導入し、外部ベンチマークとフレームワークを統合して、総合的なリレーショナルディープラーニング評価を可能にします。
Relational deep learning (RDL) has emerged as a powerful paradigm for learning directly on relational databases by modeling entities and their relationships across multiple interconnected tables. As this paradigm evolves toward larger models and relational foundation models, scalable and realistic benchmarks are essential for enabling systematic evaluation and progress. In this paper, we introduce RelBench v2, a major expansion of the RelBench benchmark for RDL. RelBench v2 adds four large-scale relational datasets spanning scholarly publications, enterprise resource planning, consumer platforms, and clinical records, increasing the benchmark to 11 datasets comprising over 22 million rows across 29 tables. We further introduce autocomplete tasks, a new class of predictive objectives that require models to infer missing attribute values directly within relational tables while respecting temporal constraints, expanding beyond traditional forecasting tasks constructed via SQL queries. In addition, RelBench v2 expands beyond its native datasets by integrating external benchmarks and evaluation frameworks: we translate event streams from the Temporal Graph Benchmark into relational schemas for unified relational-temporal evaluation, interface with ReDeLEx to provide uniform access to 70+ real-world databases suitable for pretraining, and incorporate 4DBInfer datasets and tasks to broaden multi-table prediction coverage. Experimental results demonstrate that RDL models consistently outperform single-table baselines across autocomplete, forecasting, and recommendation tasks, highlighting the importance of modeling relational structure explicitly.
研究の動機と目的
- Relational deep learning (RDL) を大規模で多テーブルなデータベース全域のドメイン横断でスケーラブルなベンチマークを動機付ける。
- リレーショナル構造と予測課題を多様化する四つの新しい大規模リレーショナルデータセットを提供する。
- 時間的制約の下でリレーショナルテーブル内の欠損属性値を推定する autocomplete 予測タスクを導入する。
- 統一的な RelBench 指標へ向けて外部ベンチマークと評価フレームワーク(TGB、ReDeLEx、4DBInfer)を統合し、リレーショナル–時間的および複数データベースの評価を実現する。
提案手法
- Raw 行データを ResNet タブラー モデルを用いた PyTorch Frame の初期ノード埋め込みへ変換する。
- 種時点で各エンティティノードの周囲に時間認識型のサブグラフサンプリングを実行する。
- 和声的な GraphSAGE モデルを用い、隣接ノードの和を用いた集約でリレーショナル埋め込みを更新する。
- タスク固有の予測ヘッドを適用して autocomplete、forecasting、recommendation タスクの予測を生成する。
- 外部ベンチマーク(TGB)を RelBench スキーマへ翻訳して統一的評価を実現する。
- ベースライン(LightGBM など)と比較してリレーショナルモデリングの利点を示す。

実験結果
リサーチクエスチョン
- RQ1大規模で多テーブルのリレーショナルデータセットは、Autocomplete、Forecasting、Recommendation タスクにおける RDL モデルの性能へどのような影響を与えるか。
- RQ2リレーショナル構造を明示的にモデリングすることは、単一テーブルのベースラインと比較して予測精度にどのような影響を与えるか。
- RQ3Autocomplete タスクは、欠損値推定時の情報リーク防止と RDL の評価・能力にどのような影響を与えるか。
- RQ4外部ベンチマークとフレームワーク(TGB、ReDeLEx、4DBInfer)が RelBench の総合性と移植性にどのような価値を追加するか。
- RQ5RDL モデルは学術データ、ERP、消費者プラットフォーム、医療など多様なリレーショナル領域へどの程度一般化できるか。
主な発見
- RDL モデルは autocomplete、forecasting、recommendation タスク全般で単一テーブルのベースラインを一貫して上回る。
- autocomplete シグナルはリレーショナルコンテキストの恩恵を受け、クラス不均衡や疎な特徴に対して頑健である。
- エンティティ中心および多クラス予測タスクは、リレーショナルモデリングからの利益が大きく、リレーショナルシグナルの重要性を示す。
- 外部ベンチマーク(TGB、ReDeLEx、4DBInfer)との統合は評価のカバレッジを広げ、データベース横断・時間的・診断的ベンチマークを可能にする。
- 新しい四つのデータセット(rel-arxiv、rel-salt、rel-ratebeer、rel-mimic)は、11 データセットへリレーショナル構造と予測課題を拡大し、22M 行超・29 テーブル以上へ拡張された。
- RelBench v2 での時系列サブグラフサンプリングと GraphSAGE ベースのアーキテクチャは、autocomplete、forecasting、recommendation タスクで強力なパフォーマンスを示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。