[논문 리뷰] Towards Mechanistic Interpretability of Graph Transformers via Attention Graphs
주목 그래프(Attention Graphs)를 도입하여 주의 행렬을 통합된 정보 흐름 그래프로 집계함으로써 그래프 신경망(Graph Neural Networks)과 그래프 트랜스포머(Graph Transformers)를 기계적으로 해석한다; 학습된 주의 패턴이 입력 그래프 토폴로지와 어떻게 관계하는지, 동질성(homophily) 그래프와 이질성(heterophilous) 그래프에서 분석한다.
We introduce Attention Graphs, a new tool for mechanistic interpretability of Graph Neural Networks (GNNs) and Graph Transformers based on the mathematical equivalence between message passing in GNNs and the self-attention mechanism in Transformers. Attention Graphs aggregate attention matrices across Transformer layers and heads to describe how information flows among input nodes. Through experiments on homophilous and heterophilous node classification tasks, we analyze Attention Graphs from a network science perspective and find that: (1) When Graph Transformers are allowed to learn the optimal graph structure using all-to-all attention among input nodes, the Attention Graphs learned by the model do not tend to correlate with the input/original graph structure; and (2) For heterophilous graphs, different Graph Transformer variants can achieve similar performance while utilising distinct information flow patterns. Open source code: https://github.com/batu-el/understanding-inductive-biases-of-gnns
연구 동기 및 목표
- 주의를 정보 흐름의 대리 변수로 사용하여 GNNs와 Graph Transformers에 대한 기계적 해석 가능성을 동기 부여하고 형식화한다.
- 다중-head와 다층 주의를 하나의 해석 가능한 표현으로 집계하는 Attention Graphs를 개발한다.
- 다양한 그래프 귀납 편향(sparse/dense, fixed/learned attention)이 정보 흐름과 입력 그래프 구조에 대한 의존성에 어떤 영향을 미치는지, 서로 다른 동질성(homophily)을 가진 데이터셋에서 조사한다.
제안 방법
- GNN/GT의 메시지 전달을 자기 주의(self-attention) 메커니즘에 매핑하고 층별/헤드별 주의 행렬을 정의한다.
- Graph Transformers의 설계 공간을 주의의 희소성(sparse vs dense)과 매개화(상수 vs 학습된)로 정의한다 (SC, SL, DLB, DL).
- 헤드 간 주의를 단순 평균으로 집계하여 층별 A_l을 형성하는 것을 제안한다.
- 다층 간의 합성을 행렬 곱 A_Agg = A_L2 A_L1로 제안하여 다중 홉 정보 흐름을 포착한다.
- 주목 그래프를 quasi-adjacency 행렬로 임계값화하고 입력 그래프와 F1 점수(구조 회복 용)를 사용하여 비교함으로써 Attention Graphs를 구성하고 분석한다.
- 1–2개의 층과 1–2개의 헤드를 갖는 동질성/이질성 그래프를 포괄하는 7개의 노드 분류 데이터셋에서 PyTorch TransformerEncoder를 사용하여 아키텍처를 구현하는 실험을 수행한다.
실험 결과
연구 질문
- RQ1여러 헤드와 층의 주의 행렬들을 어떻게 하나의 Attention Graph로 집계하여 GNNs/GTs에서 정보 흐름을 포착할 수 있는가?
- RQ2Graph Transformer의 서로 다른 귀납적 편향(SC, SL, DLB, DL)이 입력 그래프 구조에 대한 의존성 및 동질-이질 그래프에서의 정보 흐름 패턴에 어떤 영향을 미치는가?
- RQ3그래프 트랜스포머가 학습된 주의를 통해 입력 그래프 구조를 회복하는가, 그리고 깊이가 이것에 어떻게 영향을 주는가?
주요 결과
- Attention Graphs는 주의가 입력 그래프에 제한되지 않을 때 학습된 정보 흐름이 동질/이질 그래프 모두에서 입력 토폴로지와 다르게 흐른다는 것을 보여준다.
- 이질 그래프에서 서로 다른 GT 변형은 비슷한 성능을 달성하지만 서로 다른 정보 흐름 패턴을 사용하여, 다양한 근본 알고리즘이 있음을 시사한다.
- DL 모델은 모든 노드에 주의를 분산시키는 경향이 있으며(밀집 주의), 참조 노드 패턴을 보이는 반면, DLB 모델은 강한 지역성 및 자기 주의를 보이며 서로 다른 계산 전략을 시사한다.
- DL 모델은 입력 그래프 구조를 회복하는 데 F1 점수가 낮고(<4%), DLB 모델은 중간에서 높게(F1 28-86%) 달성하며 깊이가 증가하면 감소한다.
- 헤드 간 단순 평균으로 집계하는 것이 주요 신호를 잃지 않으면서 전반적인 정보 흐름을 효과적으로 포착한다.
- 층 간 행렬 곱으로의 집계는 간접적이고 다중 홉 정보 흐름을 포착하여 정보가 연속적 층을 통해 어떻게 전파되는지 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.