[論文レビュー] A Generalization of Transformer Networks to Graphs
この論文は、グラフの疎性、ラプラシアン固有ベクトルの位置エンコーディング、バッチ正規化、およびオプションのエッジ特徴処理を組み込むことにより、Transformerアーキテクチャを任意のグラフに一般化し、グラフベンチマークで競争力のある性能を示す。
We propose a generalization of transformer neural network architecture for arbitrary graphs. The original transformer was designed for Natural Language Processing (NLP), which operates on fully connected graphs representing all connections between the words in a sequence. Such architecture does not leverage the graph connectivity inductive bias, and can perform poorly when the graph topology is important and has not been encoded into the node features. We introduce a graph transformer with four new properties compared to the standard model. First, the attention mechanism is a function of the neighborhood connectivity for each node in the graph. Second, the positional encoding is represented by the Laplacian eigenvectors, which naturally generalize the sinusoidal positional encodings often used in NLP. Third, the layer normalization is replaced by a batch normalization layer, which provides faster training and better generalization performance. Finally, the architecture is extended to edge feature representation, which can be critical to tasks s.a. chemistry (bond type) or link prediction (entity relationship in knowledge graphs). Numerical experiments on a graph benchmark demonstrate the performance of the proposed graph transformer architecture. This work closes the gap between the original transformer, which was designed for the limited case of line graphs, and graph neural networks, that can work with arbitrary graphs. As our architecture is simple and generic, we believe it can be used as a black box for future applications that wish to consider transformer and graphs.
研究の動機と目的
- 任意のグラフにおけるグラフ構造と帰納偏りを活用するように Transformer を適応させる動機づけ。
- 全結合ではなく局所的なグラフ近傍に注意を向ける Graph Transformer レイヤを導入する。
- グラフ上のノード位置を捉えるために Laplacian eigenvector ベースの位置エンコーディングを組み込む。
- エッジ特徴を活用するためのエッジ特徴をサポートするアーキテクチャのバリアントを提供する。
- 標準的なグラフベンチマークにおいて、GNNベースラインと比較して競争力のある性能を示す。
提案手法
- ノード特徴とエッジ特徴を線形射影で共通の隠れ次元へ埋め込む。
- 入力ノード特徴に Laplacian eigenvector-based positional encodings を追加する。
- 各ヘッドが近傍に対して softmax を適用して局所的な隣接ノードを参照する multi-head アテンションを計算する。
- FFN の周りに残差接続と正規化(BatchNorm または LayerNorm)を含める。
- 専用の FFN を用いてノード表現とエッジ表現を共同で更新する Graph Transformer のバリアントを提供する。
- Sparse と full-graph の設定の両方で ZINC, PATTERN, CLUSTER データセットを評価する。
実験結果
リサーチクエスチョン
- RQ1Transformer に類似したアテンション機構を、疎性を活用するためにグラフ近傍に効果的に局所化できるか?
- RQ2ラプラシアン固有ベクトル位置エンコーディングは、他の位置エンコーディングよりグラフタスクの性能を改善するか?
- RQ3レイヤー正規化をバッチ正規化に置き換えると、グラフトランスフォーマーの学習と一般化が改善されるか?
- RQ4エッジ情報が豊富なデータセットに対して Graph Transformer にエッジ特徴を導入すると性能が向上するか?
主な発見
- Laplacian PE と BatchNorm を用いた Graph Transformer は、3つのデータセットすべてで baseline の isotropic および anisotropic GNN を上回る。
- 疎なグラフ構成は全グラフよりも良い性能を示し、疎性の帰納バイアスを裏付けている。
- エッジ特徴を持つ Graph Transformer は ZINC で最良の GNN(GatedGCN)とほぼ同等の性能に近い。
- LapPExam-based encodings (Laplacian PEs) は Graph-BERT における WL-PE および intimacy-based encodings をこれらのタスクで上回る。
- LayerNorm の代わりに BatchNorm を使用すると、一般に学習効率と一般化が改善される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。