Skip to main content
QUICK REVIEW

[논문 리뷰] Pure Transformers are Powerful Graph Learners

Jinwoo Kim, Tien Dat Nguyen|arXiv (Cornell University)|2022. 07. 06.
Advanced Graph Neural Networks인용 수 57
한 줄 요약

이 논문은 표준 Transformer가 간단한 노드/엣지 토큰 임베딩으로 그래프를 학습할 수 있으며 GNN만큼 또는 그보다 더 잘 학습하고, 그래프 전용 Transformer와도 일치하는 강한 표현력을 보이며 PCQM4Mv2에서 경쟁력 있는 결과를 보인다는 점을 보여준다.

ABSTRACT

We show that standard Transformers without graph-specific modifications can lead to promising results in graph learning both in theory and practice. Given a graph, we simply treat all nodes and edges as independent tokens, augment them with token embeddings, and feed them to a Transformer. With an appropriate choice of token embeddings, we prove that this approach is theoretically at least as expressive as an invariant graph network (2-IGN) composed of equivariant linear layers, which is already more expressive than all message-passing Graph Neural Networks (GNN). When trained on a large-scale graph dataset (PCQM4Mv2), our method coined Tokenized Graph Transformer (TokenGT) achieves significantly better results compared to GNN baselines and competitive results compared to Transformer variants with sophisticated graph-specific inductive bias. Our implementation is available at https://github.com/jw9730/tokengt.

연구 동기 및 목표

  • 손으로 만든 그래프 inductive bias 없이 순수 Transformer 아키텍처를 그래프 학습에 활용하자는 동기를 제시한다.
  • TokenGT가 최소한 2-IGN 및 WL-2 만큼의 표현력을 가지며 초그래프에서 k-IGN/k-WL로 확장될 수 있음을 이론적으로 보장한다.
  • Nodes와 edges를 토큰으로 취급하고 노드 식별자 및 타입 식별자로 보강하여 TokenGT를 개발한다.
  • 대규모 그래프(PCQM4Mv2)에서 TokenGT를 실험적으로 검증하고 GNN 기준선 및 그래프 인지 그래프- aware Transformer와의 성능 비교를 수행한다.

제안 방법

  • 모든 그래프 노드와 엣지를 독립 토큰으로 취급하고 토큰별 임베딩(노드 식별자 및 학습 가능한 타입 식별자)로 보강한다.
  • 보강된 토큰 세트에 표준 Transformer 인코더를 적용하고 그래프 수준 예측을 위한 추가 [graph] 토큰을 둔다.
  • 적절한 토큰 임베딩이 주어지면 자기 주의가 모든 순열 등식 가능 선형 연산자를 근사할 수 있어 그래프의 최소 2-IGN 표현력을 달성하고(k-IGN은 초그래프에 대해) 보장한다.
  • 직교 노드 식별자(ORFs)와 라플라시안 고유벡터를 포함한 두 가지 실용적인 노드 식별자 체계를 제공하고 래플라시안 기반 임베딩이 그래프 위치 정보를 제공한다.
  • TokenGT가 커널 어텐션과 같은 효율적인 Transformer 변형을 활용하더라도 성능 저하 없이 가능하다는 것을 입증한다.

실험 결과

연구 질문

  • RQ1노드 및 엣지 토큰에 간단한 식별자를 보강한 표준 Transformer가 GNN에서 사용하는 그래프 특정 inductive bias와 같은 수준의 성능을 달성하거나 능가할 수 있는가?
  • RQ2TokenGT의 이론적 표현력은 불변/등식 그래프 네트워크(IGN) 및 WL 테스트에 비해 어떤가?
  • RQ3TokenGT는 대규모 그래프 벤치마크(예: PCQM4Mv2)에서 GNN 기준선과 그래프 인식 Transformer과 비교해 어떤 성능을 보이는가?
  • RQ4order-k 토큰 임베딩이 k-IGN, k-WL에 해당하는 표현력으로 고차 그래프/하이퍼그래프까지 확장되는가?

주요 결과

  • 노드 및 타입 식별자를 가진 표준 Transformer는 2-IGN 만큼 표현력이 있음을 보인다(따라서 2-WL 테스트보다 강력하며 모든 메시지 전달 GNN보다 더 표현력이 크다).
  • TokenGT는 PCQM4Mv2에서 GNN 기준선보다 훨씬 뛰어난 성능을 달성하며 그래프 특정 inductive bias를 사용하는 Transformer 변형과도 경쟁력이 있다.
  • 이론적 결과는 하이퍼그래프까지 확장되며 order-k TokenGT가 k-IGN 및 k-WL만큼 표현력이 있음을 보인다.
  • 실험 결과 자기 주의가 그래프 연산에 필요한 등식 기저를 적절한 보조 노드/타입 정보와 함께 주면 근사할 수 있음을 보여준다.
  • 커널 어텐션 변형을 가진 Transformer를 사용해도 성능 손실 없이 계산 비용을 줄일 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.