[论文解读] Attending to Graph Transformers
本论文提供了图变换器(GT)架构的分类法与经验评估,强调结构/位置编码、输入特征、标记化和传播策略,并评估它们在恢复图结构和处理异构性方面的能力。
Recently, transformer architectures for graphs emerged as an alternative to established techniques for machine learning with graphs, such as (message-passing) graph neural networks. So far, they have shown promising empirical results, e.g., on molecular prediction datasets, often attributed to their ability to circumvent graph neural networks' shortcomings, such as over-smoothing and over-squashing. Here, we derive a taxonomy of graph transformer architectures, bringing some order to this emerging field. We overview their theoretical properties, survey structural and positional encodings, and discuss extensions for important graph classes, e.g., 3D molecular graphs. Empirically, we probe how well graph transformers can recover various graph properties, how well they can deal with heterophilic graphs, and to what extent they prevent over-squashing. Further, we outline open challenges and research direction to stimulate future work. Our code is available at https://github.com/luis-mueller/probing-graph-transformers.
研究动机与目标
- 提供对前沿图变换器(GT)架构及其理论属性的结构性概览。
- 综述结构性与位置编码及其对GT表达性的影响。
- 考察GT在非几何 vs 几何(3D)图特征上的处理方式。
- 在结构感知、异构性和过度挤压现象上评估GT。
- 勾勒图变换器的开放挑战与未来研究方向。
提出的方法
- 推导跨编码、输入特征、标记化与传播的GT架构分类法。
- 讨论GT的理论表达性及对结构/位置偏置的依赖。
- 综述并分类结构性与位置编码(局部/全局/相对)。
- 分析输入特征范畴(非几何 vs 几何)与几何等变性方法。
- 考察标记化策略(节点、边、子图)及其计算权衡。
- 回顾传播方案(全局、稀疏、混合)与扩展技术(线性/核化注意力)。

实验结果
研究问题
- RQ1结构性与位置编码如何影响GT的表达性与区分非同构图的能力?
- RQ2GT是否能减轻过平滑与过挤压,特别是在异构图上?
- RQ3节点-only vs 边包含 vs 子图标记化在GT上的实际权衡是什么?
- RQ4几何特征(3D 坐标)以及SE(3)/E(3)等变性如何影响GT性能?
- RQ5在保持精度的同时,将GT扩展到更大图的有效传播策略是什么?
主要发现
| Model (PE/SE type) | Actor | Cornell | Texas | Wisconsin | Chameleon | Squirrel |
|---|---|---|---|---|---|---|
| Geom-GCN (DEG) | 31.59 ±1.15 | 60.54 ±3.67 | 64.51 ±3.66 | 66.76 ±2.72 | 60.00 ±2.81 | |
| GCN (no PE/SE) | 33.92 ±0.63 | 53.78 ±3.07 | 65.95 ±3.67 | 66.67 ±2.63 | 43.14 ±1.33 | |
| GCN (LapPE) | 34.30 ±1.12 | 56.22 ±2.65 | 65.95 ±3.67 | 66.47 ±1.37 | 43.53 ±1.45 | |
| GCN (RWSE) | 33.69 ±1.07 | 53.78 ±4.09 | 62.97 ±3.21 | 69.41 ±2.66 | 43.84 ±1.68 | |
| GCN (DEG) | 33.99 ±0.91 | 53.51 ±2.65 | 66.76 ±2.72 | 67.26 ±1.53 | 46.36 ±2.07 | |
| GPS GCN+Transformer (LapPE) | 37.68 ±0.52 | 66.22 ±3.87 | 75.41 ±1.46 | 74.71 ±2.97 | 48.57 ±1.02 | |
| GPS GCN+Transformer (RWSE) | 36.95 ±0.65 | 65.14 ±5.73 | 73.51 ±2.65 | 78.04 ±2.88 | 47.57 ±0.90 | |
| GPS GCN+Transformer (DEG) | 36.91 ±0.56 | 64.05 ±2.43 | 73.51 ±3.59 | 75.49 ±4.23 | 52.59 ±1.81 | |
| Transformer (LapPE) | 38.43 ±0.87 | 69.46 ±1.73 | 77.84 ±1.08 | 76.08 ±1.92 | 49.69 ±1.11 | |
| Transformer (RWSE) | 38.13 ±0.63 | 70.81 ±2.02 | 77.57 ±1.24 | 80.20 ±2.23 | 49.45 ±1.34 | |
| Transformer (DEG) | 37.39 ±0.50 | 71.89 ±2.48 | 77.30 ±1.32 | 79.80 ±0.90 | 56.18 ±0.83 | |
| Graphormer (DEG only) | 36.91 ±0.85 | 68.38 ±1.73 | 76.76 ±1.79 | 77.06 ±1.97 | 54.08 ±2.35 | |
| Graphormer (DEG, attn. bias) | 36.69 ±0.70 | 68.38 ±1.73 | 76.22 ±2.36 | 77.65 ±2.00 | 53.84 ±2.32 |
- 缺乏表达性编码的GT在图结构辨识方面能力有限,需结构/位置偏置来提升。
- 若干编码(RWSE、LapPE)与注意力偏置(最短路径、边表示)提升结构感知与任务性能。
- 混合传播(局部GNN + 全局注意力)往往取得强劲结果,平衡可扩展性与表达性。
- 具有SE(3)/E(3)等变性与基于距离的注意力的几何GT在分子性质任务和3D图建模中表现更佳。
- 实证结果显示不同任务的表现存在差异,基线(原生变换器)在结构性/异构性基准测试上落后于带结构编码的GT。
- 表3(异构数据集)显示GNN基线与具有结构编码的GT变体之间存在显著的性能差距。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。