[논문 리뷰] Less is More: on the Over-Globalizing Problem in Graph Transformers
이 논문은 Graph Transformers의 과도 글로벌라이징 문제를 조사하고, 글로벌 어텐션이 노드 표현에 왜 해로울 수 있는지 분석하며, intra- 및 inter-클러스터 정보를 분리하고 로컬 GCN과 융합해 일반화를 개선하는 협력 학습 bi-level 글로벌 트랜스포머인 CoBFormer를 제안한다.
Graph Transformer, due to its global attention mechanism, has emerged as a new tool in dealing with graph-structured data. It is well recognized that the global attention mechanism considers a wider receptive field in a fully connected graph, leading many to believe that useful information can be extracted from all the nodes. In this paper, we challenge this belief: does the globalizing property always benefit Graph Transformers? We reveal the over-globalizing problem in Graph Transformer by presenting both empirical evidence and theoretical analysis, i.e., the current attention mechanism overly focuses on those distant nodes, while the near nodes, which actually contain most of the useful information, are relatively weakened. Then we propose a novel Bi-Level Global Graph Transformer with Collaborative Training (CoBFormer), including the inter-cluster and intra-cluster Transformers, to prevent the over-globalizing problem while keeping the ability to extract valuable information from distant nodes. Moreover, the collaborative training is proposed to improve the model's generalization ability with a theoretical guarantee. Extensive experiments on various graphs well validate the effectiveness of our proposed CoBFormer.
연구 동기 및 목표
- 그래프 트랜스포머에서의 과도 글로벌화 현상과 그것이 노드 분류에 미치는 영향을 밝힌다.
- 주의 분포, 이웃의 유용성, 그리고 임베딩 매끄러움 사이의 이론적 연결을 제시한다.
- 내부-클러스터 정보와 클러스터 간 정보를 분리하고 과도 글로벌화를 완화하기 위한 이중 수준 글로벌 아키텍처(BGA)를 제안한다.
- GCN과 BGA 모듈 간의 협력 학습 도입으로 일반화를 향상한다.
- 동질적 및 이질적 그래프에서 CoBFormer를 실험적으로 검증하고 효율성을 분석한다.
제안 방법
- METIS를 이용해 그래프를 클러스터로 분할하여 클러스터 내-외 처리 가능하게 한다.
- 클러스터 내 정보를 포착하기 위해 로컬 트랜스포머를 적용한다.
- 클러스터 간 정보를 포착하고 글로벌 어텐션에 근사하기 위해 클러스터 간 트랜스포머를 적용한다.
- 해당 노드 표현을 대응하는 클러스터 표현 및 융합 계층과 융합한다.
- 로컬 모듈로 GCN을 도입하고 두 개의 선형 헤드를 이용한 협력 학습으로 두 모듈을 감독하고 상호 정제를 수행한다.

실험 결과
연구 질문
- RQ1그래프 트랜스포머의 글로벌 어텐션 메커니즘이 충분히 정보가 많은(가까운) 노드에 집중하는가, 아니면 먼 노드를 과도하게 강조하는가?
- RQ2과도 글로벌화를 피하면서 유용한 먼 정보를 어떻게 보존할 수 있는가?
- RQ3협력 학습과 결합된 이중 수준 주의 체계가 다양한 그래프 유형(동형성/이질성)에서 일반화와 효율성을 향상시킬 수 있는가?
주요 결과
| 데이터셋 | Mi-F1 (GCN) | Mi-F1 (GAT) | Mi-F1 (NodeFormer) | Mi-F1 (NAGphormer) | Mi-F1 (SGFormer) | Mi-F1 (CoB-G) | Mi-F1 (CoB-T) | Ma-F1 (GCN) | Ma-F1 (GAT) | Ma-F1 (NodeFormer) | Ma-F1 (NAGphormer) | Ma-F1 (SGFormer) | Ma-F1 (CoB-G) | Ma-F1 (CoB-T) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Cora | 81.44 ± 0.78 | 81.88 ± 0.99 | 80.30 ± 0.66 | 79.62 ± 0.25 | 81.48 ± 0.94 | 84.96 ± 0.34 | 85.28 ± 0.16 | 81.44 | 83.78 | 83.82 | 81.54 | 83.68 | 84.96 | 85.28 |
| CiteSeer | 71.84 ± 0.22 | 72.26 ± 0.97 | 71.58 ± 1.74 | 67.46 ± 1.33 | 71.96 ± 0.13 | 74.68 ± 0.33 | 74.52 ± 0.48 | 69.87 | 70.44 | 70.90 | 69.60 | 71.20 | 74.68 | 74.52 |
- 실증적이고 이론적인 증거는 표준 그래프 트랜스포머가 먼 노드에 과도하게 주의를 기울여 가까운(잠재적으로 정보가 있는) 노드를 약화시킨다는 것을 보여준다.
- 수용 영역을 확장하면 임베딩 정렬 불일치(Z − ÂZ)가 증가하고 노드 분류 성능이 많은 설정에서 악화될 수 있다.
- 내부-클러스터 및 클러스터 간 주의가 결합된 Bi-Level Global Graph Transformer(CoBFormer)가 과도 글로벌화를 줄이면서 글로벌 정보를 보존한다.
- 로컬 GCN과 글로벌 BGA 모듈 간 협력 학습은 일반화를 향상시키고 노드 분류를 더 잘 수행하며 KL-발산 분해를 통한 이론적 지원이 있다.
- CoBFormer는 여러 데이터셋에서 우수한 성능을 달성하고 일반적인 글로벌 어텐션 방법에 비해 GPU 메모리 사용을 크게 줄인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.