QUICK REVIEW

[論文レビュー] Polynormer: Polynomial-Expressive Graph Transformer in Linear Time

Chenhui Deng, Zichao Yue|arXiv (Cornell University)|Mar 2, 2024

Neural Networks and Applications被引用数 5

ひとこと要約

Polynormer は線形時間の局所-全体注意を備えた多項式表現のグラフトランスフォーマーを導入し、dense attention を使わず高い表現力を達成し、同質・異質グラフの両方でベースラインを上回る。

ABSTRACT

Graph transformers (GTs) have emerged as a promising architecture that is theoretically more expressive than message-passing graph neural networks (GNNs). However, typical GT models have at least quadratic complexity and thus cannot scale to large graphs. While there are several linear GTs recently proposed, they still lag behind GNN counterparts on several popular graph datasets, which poses a critical concern on their practical expressivity. To balance the trade-off between expressivity and scalability of GTs, we propose Polynormer, a polynomial-expressive GT model with linear complexity. Polynormer is built upon a novel base model that learns a high-degree polynomial on input features. To enable the base model permutation equivariant, we integrate it with graph topology and node features separately, resulting in local and global equivariant attention models. Consequently, Polynormer adopts a linear local-to-global attention scheme to learn high-degree equivariant polynomials whose coefficients are controlled by attention scores. Polynormer has been evaluated on $13$ homophilic and heterophilic datasets, including large graphs with millions of nodes. Our extensive experiment results show that Polynormer outperforms state-of-the-art GNN and GT baselines on most datasets, even without the use of nonlinear activation functions.

研究の動機と目的

従来のGNNの表現力を超える、拡張性と表現力を両立するグラフトランスフォーマーの必要性を動機づける。
ノード特徴の高次数多項式写像を生み出す多項式表現力を持つGTを提案する。
線形時間計算を達成するために置換同値性を満たす局所および全体注意機構を設計する。
同質・異質設定を問わず、百万人規模のノードをもつグラフへ拡張性を示す。
13データセットおよび大規模グラフに対して、GNNおよびGTのベースラインと比較してPolynormerを体系的に評価する。

提案手法

各層が X^{(l)} = (W^{(l)} X^{(l-1)}) ⊙ (X^{(l-1)} + B^{(l)}) を計算する基礎的な多項式表現モデルを定義し、2^L の多項式表現力を達成する。
B をノード共有のバイアスに置換し、グラフトポロジー (A) または線形化されたグローバル注意カーネルのいずれかを用いて、2つの等変注意モジュール（局所と全体）を導出する。
局所注意ブロックが疎な隣接行列 A を用い、続いてカーネル化された線形時間のグローバル注意ブロックを配置する、局所から全体への注意アーキテクチャを導入する。
線形時間計算量を保証する：局所注意は O(md + nd^2)、グローバル注意は O(nd^2) で、カーネル技術を用いる。
ポリノーマーの核となる多項式表現性を保ちつつ、性能をさらに向上させるために ReLU 活性化（Polynormer-r）を任意で有効化する。
実装のガイダンスと WL 表現力との理論的結びつきを提供する。

実験結果

リサーチクエスチョン

RQ1線形時間計算を維持しつつ、高次数多項式を学習するグラフトランスフォーマーは、グラフ上で表現力を発揮できるか。
RQ2グラフトポロジーとノード特徴を多項式係数へ統合する際、置換同値性をどう保証できるか。
RQ3局所-全体注意方式は、従来の局所および全体設計を上回り、大規模グラフへの拡張性を実現するか。
RQ4最先端ベースラインと比較して、同質グラフと異質グラフの両方で、多項式表現力を持つトランスフォーマがどの程度性能向上をもたらすか。

主な発見

Polynormer は L 層の基礎モデルで 2^L の多項式表現力を達成する。
等変局所注意は A を疎ウェイトとして使用; 等変グローバル注意はカーネル化された、線形時間の softmax 注意の形式を用いる。
局所から全体への Polynormer は線形計算量を達成し、ほとんどのデータセットで最新の GNNs および GTs を上回る。
Polynormer-r（ReLU 付き）は、多くのデータセット、特に大規模グラフで精度をさらに向上させる。
13データセット（百万単位のノードを含む大規模グラフを含む）での広範な実験は、同質・異質グラフの両方で高い性能を示す。
アーキテクチャは dense attention や重い PE/SE のオーバーヘッドを回避しつつ、高い多項式表現力を実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。