[論文レビュー] Billion-Scale Graph Foundation Models
本論文は、十億ノードの異種グラフ上で十億パラメータ級の Graph Foundation Models(GFM)を構築するエンドツーエンドのフレームワーク GraphBFF を提案し、二つの異種アテンションブロックとグラフ用ニューラルスケーリング則を備えた GraphBFF Transformer を導入する。
Graph-structured data underpins many critical applications. While foundation models have transformed language and vision via large-scale pretraining and lightweight adaptation, extending this paradigm to general, real-world graphs is challenging. In this work, we present Graph Billion- Foundation-Fusion (GraphBFF): the first end-to-end recipe for building billion-parameter Graph Foundation Models (GFMs) for arbitrary heterogeneous, billion-scale graphs. Central to the recipe is the GraphBFF Transformer, a flexible and scalable architecture designed for practical billion-scale GFMs. Using the GraphBFF, we present the first neural scaling laws for general graphs and show that loss decreases predictably as either model capacity or training data scales, depending on which factor is the bottleneck. The GraphBFF framework provides concrete methodologies for data batching, pretraining, and fine-tuning for building GFMs at scale. We demonstrate the effectiveness of the framework with an evaluation of a 1.4 billion-parameter GraphBFF Transformer pretrained on one billion samples. Across ten diverse, real-world downstream tasks on graphs unseen during training, spanning node- and link-level classification and regression, GraphBFF achieves remarkable zero-shot and probing performance, including in few-shot settings, with large margins of up to 31 PRAUC points. Finally, we discuss key challenges and open opportunities for making GFMs a practical and principled foundation for graph learning at industrial scale.
研究の動機と目的
- 一般的なグラフと異種グラフ分布に対する foundation-model スタイルの事前学習の必要性を動機づける。
- 産業グラフに適した十億パラメータ級の GFM のためのスケーラブルなエンドツーエンドフレームワーク(GraphBFF)を定義する。
- 異種性とスケールに対応する二つの注意機構を持つ GraphBFF Transformer アーキテクチャを提案する。
- 実世界データを用いた十億規模の GFM を可能にする事前学習、バッチ処理、微調整戦略を示す。
- 多様な下流タスクで十億エッジデータを用いて 1.4B パラメータの GraphBFF を経験的に評価し、ゼロショット、Few-shot、プロービング性能を分析する。
提案手法
- Type-Conditioned Attention (TCA) と Type-Agnostic Attention (TAA) の二つの異種アテンションモジュールを備えた GraphBFF Transformer を導入する。
- TCA で大規模・不均衡な近傍タイプを管理するためにスパースソフトマックスを適用する。
- 効率を維持するために TAA では固定次数の近傍サンプリングと共有アテンション行列を利用する。
- TCA と TAA の出力を FFN で結合し、標準の Transformer エンコーダブロックにおける層表現を生成する。
- 新規 batching 戦略を提案する:KL-Batching はバッチ分布をグローバルグラフタイプ分布と揃え、Round-Robin Batching はタイプ別訓練の安定化を図る。
- 12 種類のノードタイプと 20 種類のリレーションタイプを持つ多タイプグラフからの十億エッジを用いた十億規模のマスク付きリンク予測による事前学習を提示する。
- 下流タスクに対して LoRA やタイプ認識パラメータ更新を用いた GraphBFF(および G の拡張)を微調整する方法を示す。

実験結果
リサーチクエスチョン
- RQ1十億パラメータ級の GFM フレームワーク(GraphBFF)を工業規模の任意の異種グラフ上で効果的に構築・訓練できるか。
- RQ2二つの専門的なアテンションブロック(TCA と TAA)は、一つのみを用いる場合より表現力と性能を向上させるか。
- RQ3グラムのモデルサイズとデータ規模に対して、グラフ上の GFM を支配するニューラルスケーリング則は何か。
- RQ4訓練中に見られない多様な下流タスクで十億規模の GFM を高く性能させるための実践的 batching、事前学習、微調整戦略は何か。
- RQ5実世界グラフ上のノード・エッジレベルのタスクで、ゼロショット・Few-shot・プロービング設定で GraphBFF はどう機能するか。
主な発見
| Model | Task 1 PRAUC | Task 2 PRAUC | Task 3 PRAUC | Task 4 PRAUC | Task 5 PRAUC | Task 6 PRAUC | Task 7 MAE | Task 8 PRAUC | Task 9 PRAUC | Task 10 PRAUC |
|---|---|---|---|---|---|---|---|---|---|---|
| GraphBFF -1 | 64.77 ±1.70 | 67.94 ±0.24 | 73.86 ±0.71 | 95.34 ±0.51 | 75.70 ±4.12 | 75.47 ±0.69 | 0.073 ±0.01 | 72.47 ±4.75 | 42.62 ±4.80 | 62.92 ±3.22 |
- 1.4B パラメータの GraphBFF Transformer が十億サンプルで事前学習され、十の下流グラフタスクで強力なゼロショットおよびプロービング性能を達成する。
- GraphBFF は Few-shot や Zero-shot などの様々な設定で、タスク特化型異種グラフトランスフォーマーより顕著な利得を示す。
- TCA と TAA の組み合わせは、いずれか単独を用いるよりも表現力が高くなり、異種グラフ上の関係推論を豊かにする。
- GFM のニューラルスケーリング則は、モデルサイズとデータ規模の両方にボトルネックがあることを示し、性能向上には両方の成長が必要である。
- KL-Batching と Round-Robin Batching は、異種エッジタイプ全体で訓練の安定性とバッチ表現性を大幅に改善する。
- パラメータ効率の高い微調整手法(例:LoRA)を用いることで、グラフ BFF を新しいタスクへ適応させ、G に追加タイプを組み込むことが可能で、完全再訓練を必要としない。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。