[论文解读] Recipe for a General, Powerful, Scalable Graph Transformer
提出 GPS,一种模块化的图 Transformer 蓝图,线性复杂度,结合局部 MPNN 信息传递与全局线性注意力,在 16 个基准测试中达到接近最先进的结果。
We propose a recipe on how to build a general, powerful, scalable (GPS) graph Transformer with linear complexity and state-of-the-art results on a diverse set of benchmarks. Graph Transformers (GTs) have gained popularity in the field of graph representation learning with a variety of recent publications but they lack a common foundation about what constitutes a good positional or structural encoding, and what differentiates them. In this paper, we summarize the different types of encodings with a clearer definition and categorize them as being $ extit{local}$, $ extit{global}$ or $ extit{relative}$. The prior GTs are constrained to small graphs with a few hundred nodes, here we propose the first architecture with a complexity linear in the number of nodes and edges $O(N+E)$ by decoupling the local real-edge aggregation from the fully-connected Transformer. We argue that this decoupling does not negatively affect the expressivity, with our architecture being a universal function approximator on graphs. Our GPS recipe consists of choosing 3 main ingredients: (i) positional/structural encoding, (ii) local message-passing mechanism, and (iii) global attention mechanism. We provide a modular framework $ extit{GraphGPS}$ that supports multiple types of encodings and that provides efficiency and scalability both in small and large graphs. We test our architecture on 16 benchmarks and show highly competitive results in all of them, show-casing the empirical benefits gained by the modularity and the combination of different strategies.
研究动机与目标
- 澄清并将图 Transformer 的位置和结构编码(PE/SE)分为局部、全局和相对类别并进行分类。
- 提出一个将局部信息传递与全局注意力融合的 GPS 蓝图,以在图上实现线性复杂度。
- 展示在大图上的可扩展性,同时在多样化基准上保持有竞争力的性能。
- 提供全面的消融研究,以理解 PE/SE、MPNN 和全局注意力组件的贡献。
- 提供开源 GraphGPS 实现,便于跨数据集的模块化实验。
提出的方法
- 定义三部分的 GPS 方案:(i) 用于聚合位置/结构编码的嵌入模块,结合节点/边/图特征,(ii) 处理模块,将局部 MPNN 通道与全局注意力相结合,(iii) 支持多种 PE/SE、MPNN 和注意力选项的模块化框架。
- 在全局注意力组件中使用线性时间注意力机制(Performer 或 BigBird),实现 O(N+E) 复杂度,避免全 O(N^2) 注意力。
- 在每个 GPS 层中交错一次局部 MPNN 传递和全局注意力步骤,然后通过 MLP 融合。
- 主张边信息可以通过 MPNN+Transformer 混合体在节点特征中传播,保持表达能力。
- 提供理论证明,GPS 通过使边信息传播并利用拉普拉斯特征向量,在图上是普遍函数逼近器。
- 将 GPS 实现于基于 PyG 和 GraphGym 的 GraphGPS 包中,便于模块化实验。
实验结果
研究问题
- RQ1将模块化的 PE/SE 编码分成局部/全局/相对类别,能否提升图 Transformer 的表达能力和泛化性?
- RQ2将局部 MPNN 聚合与全局线性注意力解耦,是否能在大图上实现可扩展、具有竞争力的图 Transformer 性能?
- RQ3各 GPS 组件(PE/SE、MPNN、全局注意力)对不同基准的性能贡献?
- RQ4GPS 是否能够在具有线性时间注意力的情况下实现对图的普适函数逼近?
主要发现
- GPS 在包括 ZINC、MNIST、CIFAR10、PATTERN、CLUSTER 和 OGB 任务在内的 16 个基准测试中,达到与最先进水平竞争的结果。
- 消融研究显示大多数数据集需要 MPNN 模块,以及 Transformer 风格的全局注意力的好处。
- RWSE 和基于 SignNet 的编码提供一致的增益,最佳编码因数据集而异。
- 线性尺度的全局注意力(Performer)使扩展到数千节点的图成为可能,同时保持强性能。
- GPS 在大规模 PCQM4Mv2 和 MalNet-Tiny 上展示出强结果,体现可扩展性和在参数更少的情况下的竞争力精度。
- 该方法通过节点表示保留边信息,支持其在图上的普适函数逼近的说法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。