[论文解读] Pure Transformers are Powerful Graph Learners
论文表明,使用标准 Transformer 及简单的节点/边令牌嵌入,能学习图结构,表现与 GNNs 相当甚至优于 GNNs,甚至可媲美针对图的 Transformer,具有强理论表达力,在 PCQM4Mv2 上也有竞争力的结果。
We show that standard Transformers without graph-specific modifications can lead to promising results in graph learning both in theory and practice. Given a graph, we simply treat all nodes and edges as independent tokens, augment them with token embeddings, and feed them to a Transformer. With an appropriate choice of token embeddings, we prove that this approach is theoretically at least as expressive as an invariant graph network (2-IGN) composed of equivariant linear layers, which is already more expressive than all message-passing Graph Neural Networks (GNN). When trained on a large-scale graph dataset (PCQM4Mv2), our method coined Tokenized Graph Transformer (TokenGT) achieves significantly better results compared to GNN baselines and competitive results compared to Transformer variants with sophisticated graph-specific inductive bias. Our implementation is available at https://github.com/jw9730/tokengt.
研究动机与目标
- 在图学习中动机使用纯 Transformer 架构,避免手工设计的图归纳偏置。
- 给出理论保证,表明 TokenGT 至少与 2-IGN 和 WL-2 同等表达力,并扩展到超图上的 k-IGN/k-WL。
- 通过将节点和边视为带有节点标识符和类型标识符的令牌来实现 TokenGT。
- 在大规模图数据集(PCQM4Mv2)上对 TokenGT 进行经验验证,并与 GNN 基线和具图感知的 Transformer 进行比较。
提出的方法
- 将所有图节点和边视为独立的令牌,并用令牌级嵌入进行增强(节点标识符和可训练的类型标识符)。
- 在增强后的令牌集合上使用标准 Transformer 编码器,并为图级预测添加一个额外的 [graph] 令牌。
- 证明在合适的令牌嵌入下,自注意力可以近似任意置换等变线性算子,从而在图上达到至少 2-IGN 的表达力(在超图上达到 k-IGN)。
- 给出两种实用的节点标识符方案:正交节点标识符(ORFs)和拉普拉斯特征向量,基于拉普拉斯的嵌入提供图的位置信息。
- 证明 TokenGT 可以利用高效的 Transformer 变体(如核注意力),而不牺牲性能。
实验结果
研究问题
- RQ1在使用带有简单标识符的节点和边令牌输入下,标准 Transformer 能否匹配或超越 GNN 使用的针对图的归纳偏置?
- RQ2与不变量/等变图网络(IGNs)和 WL 测试相比,TokenGT 的理论表达力是多少?
- RQ3在大规模图基准(如 PCQM4Mv2)上,TokenGT 相对于 GNN 基线和具图感知的 Transformer 的表现如何?
- RQ4阶次为 k 的令牌嵌入是否将 TokenGT 扩展到高阶图/超图,并具有相应的表达力(k-IGN、k-WL)?
主要发现
- 带有节点和类型标识符的标准 Transformer 在理论上至少与 2-IGN 一样表达力,因此至少与 2-WL 测试同等强大,且比所有消息传递型 GNN 更具表达力。
- TokenGT 在 PCQM4Mv2 上显著优于 GNN 基线,并且与使用图特定归纳偏置的 Transformer 变体相媲美。
- 理论结果扩展到超图,表明阶次 tokenGT 至少与 k-IGN 和 k-WL 同等表达力。
- 经验研究表明,当提供适当的辅助节点/类型信息时,自注意力可以近似图算子所需的等变基。
- 带有核注意力变体的 Transformer 可用于降低计算成本,同时不显著影响性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。