QUICK REVIEW

[논문 리뷰] Evaluating Progress in Graph Foundation Models: A Comprehensive Benchmark and New Insights

Xingtong Yu, S. Ye|arXiv (Cornell University)|2026. 02. 28.

Advanced Graph Neural Networks인용 수 0

한 줄 요약

이 논문은 그래프 기반 모델(GFMs)을 위한 주제 및 형식 도메인 전환을 공동으로 평가하는 2차원 벤치마크를 도입하고, 33개 데이터셋과 네 가지 평가 설정에서 여덟 개의 GFMs를 분석한다.

ABSTRACT

Graph foundation models (GFM) aim to acquire transferable knowledge by pre-training on diverse graphs, which can be adapted to various downstream tasks. However, domain shift in graphs is inherently two-dimensional: graphs differ not only in what they describe (topic domains) but also in how they are represented (format domains). Most existing GFM benchmarks vary only topic domains, thereby obscuring how knowledge transfers across both dimensions. We present a new benchmark that jointly evaluates topic and format gaps across the full GFM pipeline, including multi-domain self-supervised pre-training and few-shot downstream adaptation, and provides a timely evaluation of recent GFMs in the rapidly evolving landscape. Our protocol enables controlled assessment in four settings: (i) pre-training on diverse topics and formats, while adapting to unseen downstream datasets; (ii) same pre-training as in (i), while adapting to seen datasets; (iii) pre-training on a single topic domain, while adapting to other topics; (iv) pre-training on a base format, while adapting to other formats. This two-axis evaluation disentangles semantic generalization from robustness to representational shifts. We conduct extensive evaluations of eight state-of-the-art GFMs on 33 datasets spanning seven topic domains and six format domains, surfacing new empirical observations and practical insights for future research. Codes/data are available at https://github.com/smufang/GFMBenchmark.

연구 동기 및 목표

그래프 도메인에 대한 2차원 관점을 주제 암시(semantics)와 그래프 형식으로 분리하여 형식화한다.
GFMs를 위해 다양한 주제 및 형식 도메인을 포괄하는 포괄적 벤치마크를 구축한다.
보였던(Seen)과 보이지 않는(Unseen) 다운스트림 전이를 평가하기 위한 통합 평가 설정을 제공한다.
최신 GFM의 일반화 특성을 분석하고 실행 가능한 설계 인사이트를 제시한다.

제안 방법

그래프의 주제 도메인과 형식 도메인을 정의하고 두 축에 걸쳐 다양한 데이터셋을 선별한다.
다양한 주제/형식 그래프에서 다중 도메인 자가지도(self-supervised) 목표를 사용하여 GFMs을 사전 학습한다.
노드/엣지/그래프 작업에 대해 소수샷 다운스트림 적응으로 교차 도메인 전이를 평가한다.
네 가지 평가 설정에서 광범위한 GFMs 세트(여덟 개 모델)를 비교한다.
공정한 비교를 가능하게 하도록 데이터 전처리 및 평가 프로토콜을 표준화한다.

실험 결과

연구 질문

RQ1RQ1: 다앙한 주제와 형식으로 학습된 GFM이 다중 도메인 사전 학습 후 미지의/ unseen 다운스트림 데이터셋에 적응할 수 있는가?
RQ2RQ2: 다중 도메인 사전 학습 후 보이는 다운스트림 데이터셋에 적응할 때 GFMs의 성능은 어떠한가?
RQ3RQ3: 전이 과정에서 의미적(주제) 일반화가 표현적(형식) 변 shifts와 어떻게 상호 작용하는가?
RQ4RQ4: 기본 형식으로 사전 학습한 후 GFMs가 서로 다른 그래프 형식 간에 어느 정도 일반화하는가?

주요 결과

하나의 GFM이 모든 미지의 데이터셋에서 우위를 차지하지 않으며, 성능은 데이터셋 및 작업에 의존한다.
GFMs는 일반적으로 보지 못한(target들)에서 기존의 감독형 GNN보다 우수하지만, 데이터셋에 따라 이득이 일관되게 나타나지 않는다.
일부 GFM(예: SAMGPT, MDGPT, GFT, MDGFM)은 여러 설정에서 자주 경쟁력이 있으며, 다른 모델들은 텍스트 라벨이 있을 때 두드러지게 뛰어나다.
평가 결과는 뚜렷한 일반화 행태와 한계를 드러내며, 다중 도메인 통합 및 적응 전략의 개선 필요성을 강조한다.
텍스트 라벨을 사용할 수 있을 때 특정 작업에서 특정 방법들(G2P2, GraphCLIP 등)의 성능을 높일 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.