QUICK REVIEW

[논문 리뷰] Polynormer: Polynomial-Expressive Graph Transformer in Linear Time

Chenhui Deng, Zichao Yue|arXiv (Cornell University)|2024. 03. 02.

Neural Networks and Applications인용 수 5

한 줄 요약

Polynormer는 선형 시간 로컬-글로벌 주의를 갖춘 다항식 표현 그래프 트랜스포머를 도입하여 dense attention 없이도 높은 표현력을 달성하고, 동질성 그래프와 이질적 그래프 모두에서 기준선 baselines를 능가한다.

ABSTRACT

Graph transformers (GTs) have emerged as a promising architecture that is theoretically more expressive than message-passing graph neural networks (GNNs). However, typical GT models have at least quadratic complexity and thus cannot scale to large graphs. While there are several linear GTs recently proposed, they still lag behind GNN counterparts on several popular graph datasets, which poses a critical concern on their practical expressivity. To balance the trade-off between expressivity and scalability of GTs, we propose Polynormer, a polynomial-expressive GT model with linear complexity. Polynormer is built upon a novel base model that learns a high-degree polynomial on input features. To enable the base model permutation equivariant, we integrate it with graph topology and node features separately, resulting in local and global equivariant attention models. Consequently, Polynormer adopts a linear local-to-global attention scheme to learn high-degree equivariant polynomials whose coefficients are controlled by attention scores. Polynormer has been evaluated on $13$ homophilic and heterophilic datasets, including large graphs with millions of nodes. Our extensive experiment results show that Polynormer outperforms state-of-the-art GNN and GT baselines on most datasets, even without the use of nonlinear activation functions.

연구 동기 및 목표

전통적인 GNN 표현력을 능가하는 확장 가능하고도 표현력이 높은 그래프 트랜스포머의 필요성을 제시한다.
노드 특성의 고차 다항식 매핑을 생성하는 다항식 표현 GT를 제안한다.
선형 시간 복잡도를 달성하기 위해 순서-등가(permutation-equivariant) 로컬 및 글로벌 어텐션 메커니즘을 설계한다.
동질성 및 이질성 설정에서 수백만 개의 노드를 가진 그래프에 대한 확장 가능성을 입증한다.
13개 데이터세트와 대형 그래프에서 GNN 및 GT 기준선에 대해 Polynormer를 광범위하게 평가한다.

제안 방법

각 층이 X^{(l)} = (W^{(l)} X^{(l-1)}) ⊙ (X^{(l-1)} + B^{(l)})를 계산하여 2^L 다항식 표현력을 달성하는 기저 다항식-표현 모델을 정의한다.
B를 노드 공유 바이어스(node-shared biases)로 교체하고 그래프 토폴로지(A) 또는 선형화된 글로벌 어텐션 커널을 사용하여 두 개의 등변(동등) 어탠션 모듈(로컬 및 글로벌)을 유도한다.
희소 인접 행렬 A를 갖는 로컬 어텐션 블록이 선형 시간 글로벌 어텐션 블록의 커널화된 형식으로 뒤따르는 로컬-투-글로벌 어텐션 아키텍처를 도입한다.
커널 트릭을 이용한 로컬 어텐션의 시간 복잡도는 O(md + nd^2), 글로벌 어탠션은 O(nd^2)로 선형 시간 복잡성을 보장한다.
다항식-표현 핵심을 보존하면서 성능을 더욱 향상시키기 위해 선택적으로 ReLU 활성화(Polynormer-r)를 사용할 수 있다.
구현 지침과 WL 표현력에 대한 이론적 연결고리를 제공한다.

실험 결과

연구 질문

RQ1그래프 트랜스포머가 고차 다항식을 학습하여 그래프에서 표현력을 달성하면서도 선형 시간 복잡성을 유지할 수 있는가?
RQ2그래프 토폴로지와 노드 특성을 다항식 계수에 통합할 때 순열 등가성을 어떻게 보장할 수 있는가?
RQ3로컬-투-글로벌 어텐션 방식이 이전의 로컬-및-글로벌 설계보다 우수한가, 그리고 대형 그래프의 확장성을 가능하게 하는가?
RQ4동질성 그래프와 이질성 그래프에서 다항식 표현 트랜스포머가 최첨단 기준선과 비교해 어떤 성능 향상을 제공하는가?

주요 결과

Polynormer는 L층 기본 모델로 2^L 다항식 표현력을 달성한다.
등가 로컬 어텐션은 A를 희소 가중치로 사용; 등가 글로벌 어텐션은 커널화된 선형 시간 형태의 소프트맥스 어텐션을 사용한다.
로컬-투-글로벌 Polynormer는 선형 복잡도를 달성하고 대부분의 데이터셋에서 최첨단 GNN 및 GT를 능가한다.
Polynormer-r(ReLU 포함)는 대형 그래프를 포함한 많은 데이터셋에서 정확도를 추가로 향상시킨다.
수백만 개의 노드를 가진 대형 그래프를 포함한 13개 데이터셋에 대한 광범위한 실험은 동질성 그래프와 이질성 그래프 모두에서 강력한 성능을 보여준다.
아키텍처는 조밀한 어텐션과 무거운 PE/SE 오버헤드를 피하면서도 높은 다항식 표현력을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.