QUICK REVIEW

[논문 리뷰] Pure Transformers are Powerful Graph Learners

Jinwoo Kim, Tien Dat Nguyen|arXiv (Cornell University)|2022. 07. 06.

Advanced Graph Neural Networks인용 수 57

한 줄 요약

이 논문은 표준 Transformer가 간단한 노드/엣지 토큰 임베딩으로 그래프를 학습할 수 있으며 GNN만큼 또는 그보다 더 잘 학습하고, 그래프 전용 Transformer와도 일치하는 강한 표현력을 보이며 PCQM4Mv2에서 경쟁력 있는 결과를 보인다는 점을 보여준다.

ABSTRACT

We show that standard Transformers without graph-specific modifications can lead to promising results in graph learning both in theory and practice. Given a graph, we simply treat all nodes and edges as independent tokens, augment them with token embeddings, and feed them to a Transformer. With an appropriate choice of token embeddings, we prove that this approach is theoretically at least as expressive as an invariant graph network (2-IGN) composed of equivariant linear layers, which is already more expressive than all message-passing Graph Neural Networks (GNN). When trained on a large-scale graph dataset (PCQM4Mv2), our method coined Tokenized Graph Transformer (TokenGT) achieves significantly better results compared to GNN baselines and competitive results compared to Transformer variants with sophisticated graph-specific inductive bias. Our implementation is available at https://github.com/jw9730/tokengt.

연구 동기 및 목표

손으로 만든 그래프 inductive bias 없이 순수 Transformer 아키텍처를 그래프 학습에 활용하자는 동기를 제시한다.
TokenGT가 최소한 2-IGN 및 WL-2 만큼의 표현력을 가지며 초그래프에서 k-IGN/k-WL로 확장될 수 있음을 이론적으로 보장한다.
Nodes와 edges를 토큰으로 취급하고 노드 식별자 및 타입 식별자로 보강하여 TokenGT를 개발한다.
대규모 그래프(PCQM4Mv2)에서 TokenGT를 실험적으로 검증하고 GNN 기준선 및 그래프 인지 그래프- aware Transformer와의 성능 비교를 수행한다.

제안 방법

모든 그래프 노드와 엣지를 독립 토큰으로 취급하고 토큰별 임베딩(노드 식별자 및 학습 가능한 타입 식별자)로 보강한다.
보강된 토큰 세트에 표준 Transformer 인코더를 적용하고 그래프 수준 예측을 위한 추가 [graph] 토큰을 둔다.
적절한 토큰 임베딩이 주어지면 자기 주의가 모든 순열 등식 가능 선형 연산자를 근사할 수 있어 그래프의 최소 2-IGN 표현력을 달성하고(k-IGN은 초그래프에 대해) 보장한다.
직교 노드 식별자(ORFs)와 라플라시안 고유벡터를 포함한 두 가지 실용적인 노드 식별자 체계를 제공하고 래플라시안 기반 임베딩이 그래프 위치 정보를 제공한다.
TokenGT가 커널 어텐션과 같은 효율적인 Transformer 변형을 활용하더라도 성능 저하 없이 가능하다는 것을 입증한다.

실험 결과

연구 질문

RQ1노드 및 엣지 토큰에 간단한 식별자를 보강한 표준 Transformer가 GNN에서 사용하는 그래프 특정 inductive bias와 같은 수준의 성능을 달성하거나 능가할 수 있는가?
RQ2TokenGT의 이론적 표현력은 불변/등식 그래프 네트워크(IGN) 및 WL 테스트에 비해 어떤가?
RQ3TokenGT는 대규모 그래프 벤치마크(예: PCQM4Mv2)에서 GNN 기준선과 그래프 인식 Transformer과 비교해 어떤 성능을 보이는가?
RQ4order-k 토큰 임베딩이 k-IGN, k-WL에 해당하는 표현력으로 고차 그래프/하이퍼그래프까지 확장되는가?

주요 결과

노드 및 타입 식별자를 가진 표준 Transformer는 2-IGN 만큼 표현력이 있음을 보인다(따라서 2-WL 테스트보다 강력하며 모든 메시지 전달 GNN보다 더 표현력이 크다).
TokenGT는 PCQM4Mv2에서 GNN 기준선보다 훨씬 뛰어난 성능을 달성하며 그래프 특정 inductive bias를 사용하는 Transformer 변형과도 경쟁력이 있다.
이론적 결과는 하이퍼그래프까지 확장되며 order-k TokenGT가 k-IGN 및 k-WL만큼 표현력이 있음을 보인다.
실험 결과 자기 주의가 그래프 연산에 필요한 등식 기저를 적절한 보조 노드/타입 정보와 함께 주면 근사할 수 있음을 보여준다.
커널 어텐션 변형을 가진 Transformer를 사용해도 성능 손실 없이 계산 비용을 줄일 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.