Skip to main content
QUICK REVIEW

[論文レビュー] SGFormer: Simplifying and Empowering Transformers for Large-Graph Representations

Qitian Wu, Wentao Zhao|arXiv (Cornell University)|Jun 19, 2023
Advanced Graph Neural Networks被引用数 11
ひとこと要約

SGFormer は大規模グラフ向けに単一層の線形時間グローバルアテンションを用い、競争力のあるノード表現を実現し、ウェブ規模のグラフ(最大0.1Bノード)にも対応できる強力な効率向上を達成します。

ABSTRACT

Learning representations on large-sized graphs is a long-standing challenge due to the inter-dependence nature involved in massive data points. Transformers, as an emerging class of foundation encoders for graph-structured data, have shown promising performance on small graphs due to its global attention capable of capturing all-pair influence beyond neighboring nodes. Even so, existing approaches tend to inherit the spirit of Transformers in language and vision tasks, and embrace complicated models by stacking deep multi-head attentions. In this paper, we critically demonstrate that even using a one-layer attention can bring up surprisingly competitive performance across node property prediction benchmarks where node numbers range from thousand-level to billion-level. This encourages us to rethink the design philosophy for Transformers on large graphs, where the global attention is a computation overhead hindering the scalability. We frame the proposed scheme as Simplified Graph Transformers (SGFormer), which is empowered by a simple attention model that can efficiently propagate information among arbitrary nodes in one layer. SGFormer requires none of positional encodings, feature/graph pre-processing or augmented loss. Empirically, SGFormer successfully scales to the web-scale graph ogbn-papers100M and yields up to 141x inference acceleration over SOTA Transformers on medium-sized graphs. Beyond current results, we believe the proposed methodology alone enlightens a new technical path of independent interest for building Transformers on large graphs.

研究の動機と目的

  • 大規模グラフにおける深層アテンションの必要性を再評価し、スケーラブルなTransformer設計を探る。
  • 全てのノード対の相互作用を効率的に捉える、単純でありながら表現力のあるモデルを開発する。
  • 膨大な前処理を必要とせず、数千~十億ノードのグラフに対してスケーラブルな学習を実現する。
  • 最新のグラフトランスフォーマーに対する実証的な性能と効率の優位性を示す。

提案手法

  • ノード数 N に対して O(N) 時間で動作する一層のグローバルアテンションを備えた Simplified Graph Transformer (SGFormer) を提案する。
  • 注意伝搬のためのノード埋め込み Z^(0) を得るために浅い入力写像 f_I を用いる。
  • Q, K, V 投影を用いた線形アテンション機構と、グローバルアテンションと自己ループ情報を組み合わせる残差伝搬ステップ Z を定義する(Eq. 2–3)。
  • 位置エンコーディング、エッジ埋め込み、前処理、追加の損失を避ける。確率的近似は行わない。
  • オプションとしてグラフ構造を組み込むには Z_O = (1-α)Z + α GN(Z^(0), A) を出力し、線形ヘッドで予測する(Eq. 4)。
  • ミニバッチ分割による大規模トレーニングをサポートし、近傍サンプリング、クラスタリング、歴史的埋め込みとの互換性を確保する。
Figure 1: Illustration of the proposed model SGFormer and its data flow. The input graph data entails node features $\mathbf{X}$ and graph adjacency $\mathbf{A}$ . For large graphs, we need to use mini-batch sampling that randomly partitions the input graph into mini-batches with smaller sizes. Each
Figure 1: Illustration of the proposed model SGFormer and its data flow. The input graph data entails node features $\mathbf{X}$ and graph adjacency $\mathbf{A}$ . For large graphs, we need to use mini-batch sampling that randomly partitions the input graph into mini-batches with smaller sizes. Each

実験結果

リサーチクエスチョン

  • RQ1単一層の線形時間グローバルアテンショントランスフォーマーは、大規模グラフにおいて多層のトランスフォーマーと同等かそれ以上を達成できるのか?
  • RQ2SGFormer は中規模およびウェブ規模のグラフで、GNNやグラフトランスフォーマーと比較してどのように性能を発揮するか?
  • RQ3制限付き教師付き設定におけるコンパクトなアーキテクチャの一般化への影響は何か?
  • RQ4近似なしで全ペアの相互作用を捉えるのに線形時間アテンションは十分か?

主な発見

  • SGFormer は数千から十億ノードに及ぶ12のノード特性ベンチマークで、単一層のアテンションを用いて競争力のある、あるいは優れた性能を示す。
  • 中規模グラフでは、SGFormer は標準的な GNN を最大で 25.9% 上回し(例:actor データセット)、Graphormer や GraphTrans と高い競争力を維持した。
  • 大規模グラフでは SGFormer は NodeFormer を5データセットで上回り、ogbn-papers100M では 66.0 の精度を達成、約3.5時間の学習と1枚のGPUで23.0 GB のメモリを消費。
  • SGFormer はウェブ規模グラフ(ogbn-papers100M で 0.1B ノード)へ線形計算量で拡張でき、訓練/推論時間を大幅に削減(中規模グラフで SOTA トランスフォーマーより推論が最大141倍高速など)。
  • 二次のアテンションをベースラインと比較して、SGFormer は顕著な効率向上を達成(例:Cora で Graphormer に対して訓練38倍、推論141倍の高速化)。
  • より深い多層アテンションは一貫して性能を向上させないことが多く、コストが高くなる可能性がある。大規模グラフに対する一層設計の有効性を強調する。
  • 理論分析は一層アテンションをデノイジング最適化ビューに結び付け、適切な設定で多層の効果に匹敵し得ることを示している。
Figure 2: Scalability test of training time per epoch and GPU memory usage w.r.t. graph sizes (a.k.a. node numbers). NodeFormer suffers out-of-memory when # nodes reaches more than 30K.
Figure 2: Scalability test of training time per epoch and GPU memory usage w.r.t. graph sizes (a.k.a. node numbers). NodeFormer suffers out-of-memory when # nodes reaches more than 30K.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。