[論文レビュー] Graph Inductive Biases in Transformers without Message Passing
GRITは、学習された相対的ランダムウォーク位置エンコーディング、ノードとノード対の二重注意機構、そして次数情報を活用して、明示的なメッセージ伝播なしにグラフの帰納的バイアスを可能にするグラフトランスフォーマを導入し、小規模から大規模のグラフデータセットにおいて最先端の性能を達成します。
Transformers for graph data are increasingly widely studied and successful in numerous learning tasks. Graph inductive biases are crucial for Graph Transformers, and previous works incorporate them using message-passing modules and/or positional encodings. However, Graph Transformers that use message-passing inherit known issues of message-passing, and differ significantly from Transformers used in other domains, thus making transfer of research advances more difficult. On the other hand, Graph Transformers without message-passing often perform poorly on smaller datasets, where inductive biases are more crucial. To bridge this gap, we propose the Graph Inductive bias Transformer (GRIT) -- a new Graph Transformer that incorporates graph inductive biases without using message passing. GRIT is based on several architectural changes that are each theoretically and empirically justified, including: learned relative positional encodings initialized with random walk probabilities, a flexible attention mechanism that updates node and node-pair representations, and injection of degree information in each layer. We prove that GRIT is expressive -- it can express shortest path distances and various graph propagation matrices. GRIT achieves state-of-the-art empirical performance across a variety of graph datasets, thus showing the power that Graph Transformers without message-passing can deliver.
研究の動機と目的
- グラフトランスフォーマがメッセージ伝播なしでは小規模データセットでの性能が低下し、純粋な注意だけではグラフ帰納的バイアスを欠くというギャップを動機づけ、対処する。
- GRITをメッセージ伝播を伴わないグラフトランスフォーマとして、グラフ帰納的バイアスを提供する。
- グラフタスクにおいて表現力と実用的な性能を実証的に正当化し検証する。
提案手法
- グラフ構造を捉えるために、ランダムウォーク確率から初期化された学習可能な相対位置エンコーディング(RRWP)を導入する。
- ノードとノード対の表現を共同更新し、RRWPエンコーディングを更新可能とする柔軟な注意機構を開発する。
- 次数情報を層ごとに次数スカラーで注入し、レイヤーノームをバッチ正規化に置換して次数情報を保持する。
- RRWPとMLPアップデータを組み合わせることで、最短経路距離やさまざまなグラフ伝搬行列を近似できる表現力を持つことを証明する。
- 設計の選択を正当化し、データセット間で最先端の性能を示すためのアブレーションと合成実験を提供する。
実験結果
リサーチクエスチョン
- RQ1GRITはRRWPを介して学習更新を用いつつ、一般的なグラフ伝搬行列と最短経路距離を表現できるか。
- RQ2ノードとノード対の表現を共同更新することで、メッセージ伝播なしでもグラフ構造を活用する能力は向上するか。
- RQ3次数情報の組み込みと代替正規化は、MPNNなしのグラフトランスフォーマの表現力と性能にどのような影響を与えるか。
主な発見
- GRITは、小規模〜中規模および大規模データセットを含む多様なグラフベンチマークで実証的に最先端の性能を達成する。
- RRWPとMLPアップデータはSPD距離やいくつかのグラフ伝搬を近似でき、GD-WL分析においてRRWPはSPDより厳密に表現力を高める。
- ノードとノード対の表現を更新する提案された注意機構は、位置エンコーディングの更新を学習でき、表現力を高める。
- 次数情報を次数スカラーとバッチ正規化で取り入れることで有用な次数信号を保持し、性能を改善する。
- アブレーション研究は、次数スカラーの除去、RRWP更新、あるいは別の注意/マッチングエンコーディングの使用が性能を劣化させることを示し、GRITの設計選択の有効性を裏付ける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。