QUICK REVIEW

[논문 리뷰] RelBench v2: A Large-Scale Benchmark and Repository for Relational Data

Justin Gu, Rishabh Ranjan|arXiv (Cornell University)|2026. 02. 13.

Machine Learning in Healthcare인용 수 0

한 줄 요약

RelBench v2는 RelBench 벤치마크를 네 가지 신규 대규모 관계형 데이터 세트로 확장하고, 자동완성 태스크를 도입하며, 포괄적인 관계형 딥 러닝 평가를 가능하게 하기 위해 외부 벤치마크와 프레임워크를 통합합니다.

ABSTRACT

Relational deep learning (RDL) has emerged as a powerful paradigm for learning directly on relational databases by modeling entities and their relationships across multiple interconnected tables. As this paradigm evolves toward larger models and relational foundation models, scalable and realistic benchmarks are essential for enabling systematic evaluation and progress. In this paper, we introduce RelBench v2, a major expansion of the RelBench benchmark for RDL. RelBench v2 adds four large-scale relational datasets spanning scholarly publications, enterprise resource planning, consumer platforms, and clinical records, increasing the benchmark to 11 datasets comprising over 22 million rows across 29 tables. We further introduce autocomplete tasks, a new class of predictive objectives that require models to infer missing attribute values directly within relational tables while respecting temporal constraints, expanding beyond traditional forecasting tasks constructed via SQL queries. In addition, RelBench v2 expands beyond its native datasets by integrating external benchmarks and evaluation frameworks: we translate event streams from the Temporal Graph Benchmark into relational schemas for unified relational-temporal evaluation, interface with ReDeLEx to provide uniform access to 70+ real-world databases suitable for pretraining, and incorporate 4DBInfer datasets and tasks to broaden multi-table prediction coverage. Experimental results demonstrate that RDL models consistently outperform single-table baselines across autocomplete, forecasting, and recommendation tasks, highlighting the importance of modeling relational structure explicitly.

연구 동기 및 목표

다양한 도메인에 걸친 대규모 다중 테이블 데이터베이스에서 관계형 학습(RDL)을 위한 확장 가능한 벤치마킹의 동기를 부여한다.
관계 구조와 예측 도전을 다각화하기 위해 네 개의 신규 대규모 관계형 데이터 세트를 제공한다.
시간 제약 하에 관계형 테이블 내 누락된 속성 값을 추론하는 자동완성 예측 태스크를 도입한다.
통합 평가를 위한 외부 벤치마크와 평가 프레임워크(TGB, ReDeLEx, 4DBInfer)를 통합한다.

제안 방법

ResNet 표 형태 모델을 사용한 PyTorch Frame으로 원시 행 데이터를 초기 노드 임베딩으로 인코딩한다.
시드 시점에서 각 엔티티 노드를 둘러싼 시간 정보를 고려한 부분 그래프 샘플링을 수행한다.
합 기반 이웃 집계를 갖는 이질적 GraphSAGE 모델을 사용하여 관계형 임베딩 업데이트를 수행한다.
자동완성, 예측, 추천 태스크에 대한 예측을 생성하기 위해 태스크별 예측 헤드를 적용한다.
외부 벤치마크(TGB)를 통합 평가를 위한 RelBench 스키마로 변환한다.
기저선(LightGBM 등) 대비 벤치마킹하여 관계형 모델링의 이점을 보여준다.

Figure 1: RelBench schema of the newly added Sales Autocompletion Linked Business Tables (SALT) dataset (Klein et al., 2024 ) .

실험 결과

연구 질문

RQ1대규모 다중 테이블 관계형 데이터세트가 RDL 모델의 성능에 대해 자동완성, 예측, 및 추천 태스크 전반에 어떤 영향을 미치는가?
RQ2단일 테이블 벤치마크와 비교했을 때 관계형 구조를 명시적으로 모델링하는 것이 예측 정확도에 미치는 영향은 무엇인가요?
RQ3자동완성 태스크가 정보를 누설하지 않도록 하면서 누락 값을 추론할 때 RDL의 평가와 기능에 어떤 영향을 미치는가?
RQ4외부 벤치마크와 프레임워크(TGB, ReDeLEx, 4DBInfer)가 RelBench의 포괄성 및 전이성(전이 가능성)에 어떤 가치를 더하는가?
RQ5학술 데이터, ERP, 소비자 플랫폼, 헬스케어와 같은 다양한 관계 도메인에서 RDL 모델이 얼마나 일반화되는가?

주요 결과

RDL 모델은 자동완성, 예측 및 추천 태스크 전반에서 단일 테이블 벤치마크를 지속적으로 능가한다.
자동완성 신호는 관계적 맥락으로부터 이득을 얻으며 클래스 불균형 및 희소 특징에 강건하다.
엔티티 중심 및 다중 클래스 예측 태스크는 관계형 모델링으로부터 더 큰 이득을 보이며, 관계형 신호의 중요성을 강조한다.
외부 벤치마크(TGB, ReDeLEx, 4DBInfer)와의 통합은 평가 범위를 확장하고 데이터베이스 간, 시간적 및 진단형 벤치마킹을 가능하게 한다.
네 가지 신규 데이터세트(rel-arxiv, rel-salt, rel-ratebeer, rel-mimic)가 관계형 구조와 예측 도전을 11개 데이터세트로 확장하고 29개 테이블에 걸쳐 22M+ rows 이상.
RDL과 시간적 서브그래프 샘플링 및 GraphSAGE 기반 아키텍처는 RelBench v2에서 자동완성, 예측, 및 추천 태스크 전반에서 강력한 성능을 달성한다.

Figure 3: RelBench schema of the newly added RateBeer dataset.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.