[論文レビュー] Evaluating Progress in Graph Foundation Models: A Comprehensive Benchmark and New Insights
論文は、Graph Foundation Models (GFMs) のトピックとフォーマットのドメインシフトを同時に評価する二次元ベンチマークを提案し、33のデータセットと4つの評価設定で8つのGFMを分析します。
Graph foundation models (GFM) aim to acquire transferable knowledge by pre-training on diverse graphs, which can be adapted to various downstream tasks. However, domain shift in graphs is inherently two-dimensional: graphs differ not only in what they describe (topic domains) but also in how they are represented (format domains). Most existing GFM benchmarks vary only topic domains, thereby obscuring how knowledge transfers across both dimensions. We present a new benchmark that jointly evaluates topic and format gaps across the full GFM pipeline, including multi-domain self-supervised pre-training and few-shot downstream adaptation, and provides a timely evaluation of recent GFMs in the rapidly evolving landscape. Our protocol enables controlled assessment in four settings: (i) pre-training on diverse topics and formats, while adapting to unseen downstream datasets; (ii) same pre-training as in (i), while adapting to seen datasets; (iii) pre-training on a single topic domain, while adapting to other topics; (iv) pre-training on a base format, while adapting to other formats. This two-axis evaluation disentangles semantic generalization from robustness to representational shifts. We conduct extensive evaluations of eight state-of-the-art GFMs on 33 datasets spanning seven topic domains and six format domains, surfacing new empirical observations and practical insights for future research. Codes/data are available at https://github.com/smufang/GFMBenchmark.
研究の動機と目的
- グラフドメインをトピック意味論とグラフフォーマットを分離して二次元的に formalize する。
- GFMs の多様なトピック・フォーマットドメインを網羅した包括的なベンチマークを構築する。
- seen および unseen ダウンストリーム転移を評価する統一された評価設定を提供する。
- 最先端のGFMの一般化挙動を分析し、実用的な設計洞察を提供する。
提案手法
- グラフのトピックとフォーマットドメインを定義し、両軸に渡って多様なデータセットをキュレーションする。
- トピック/フォーマットの多様なグラフに対して自己教師付き目的を用い、多ドメインの事前学習を行う。
- ノード/エッジ/グラフタスクのFew-shotダウンストリーム適応を用いたクロスドメイン転移を評価する。
- 4つの評価設定の下で広範なGFM(8モデル)を比較する。
- 公平な比較を可能にするデータ前処理と評価プロトコルを標準化する。
実験結果
リサーチクエスチョン
- RQ1RQ1: 多様なトピックとフォーマットで訓練されたGFMは、多ドメイン前学習後に unseen なダウンストリームデータセットへ適応できるか。
- RQ2RQ2: 多ドメイン前学習後に seen ダウンストリームデータセットへ適応した場合、GFMはどのように性能を示すか。
- RQ3RQ3: セマンティック(トピック)一般化は伝達中の表現(フォーマット)シフトとどのように相互作用するか。
- RQ4RQ4: baseフォーマットで前処理した後、GFMは異なるグラフフォーマット全般へどの程度一般化するか。
主な発見
- unseen データセット全体で単一の GFM が優越するわけではなく、性能はデータセットとタスクに依存する。
- unseen ターゲットに対しては GFM が伝統的な教師あり GNN より概して優れているが、データセット間で利得の一貫性はない。
- 一部のGFM(例:SAMGPT、MDGPT、GFT、MDGFM)は設定全体で頻繁に競合する一方、他は文本ラベルが利用可能な場合に優れる。
- 評価は明確な一般化挙動と限界を示し、より良い多ドメイン統合と適応戦略の必要性を強調する。
- テキストラベルを利用可能な場合、特定の方法(例:G2P2、GraphCLIP)で特定タスクの性能を向上させることができる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。