Skip to main content
QUICK REVIEW

[论文解读] Transformer for Graphs: An Overview from Architecture Perspective

Erxue Min, Runfa Chen|arXiv (Cornell University)|Feb 17, 2022
Advanced Graph Neural Networks被引用 73
一句话总结

对图形变换器模型的系统性综述,将它们分为将 GNN 作为辅助模块、增强的位置嵌入以及改进的注意力矩阵三类,并在一组图基准上进行消融研究。

ABSTRACT

Recently, Transformer model, which has achieved great success in many artificial intelligence fields, has demonstrated its great potential in modeling graph-structured data. Till now, a great variety of Transformers has been proposed to adapt to the graph-structured data. However, a comprehensive literature review and systematical evaluation of these Transformer variants for graphs are still unavailable. It's imperative to sort out the existing Transformer models for graphs and systematically investigate their effectiveness on various graph tasks. In this survey, we provide a comprehensive review of various Graph Transformer models from the architectural design perspective. We first disassemble the existing models and conclude three typical ways to incorporate the graph information into the vanilla Transformer: 1) GNNs as Auxiliary Modules, 2) Improved Positional Embedding from Graphs, and 3) Improved Attention Matrix from Graphs. Furthermore, we implement the representative components in three groups and conduct a comprehensive comparison on various kinds of famous graph data benchmarks to investigate the real performance gain of each component. Our experiments confirm the benefits of current graph-specific modules on Transformer and reveal their advantages on different kinds of graph tasks.

研究动机与目标

  • 按将图信息引入 Transformers 的方式对现有图形变换器模型进行分类(GA、PE、AT)。
  • 评估代表性图感知组件在图级和节点级任务上的实际性能提升。
  • 提供关于不同图任务下哪些架构选择会带来收益的建议。
  • 为可扩展的图变换器设计提供见解与未来方向。

提出的方法

  • 将20多个图形变换器模型分解为三类整合: GA(将 GNN 作为辅助模块)、PE(改进的基于图的位置嵌入)、AT(改进的注意力矩阵)。
  • 实现每个类别的代表性组件,并在六个图基准上进行消融以量化增益。
  • 在三种 GNN-Transformer 配置下比较架构:在 GNN 块上使用 Transformer 块、堆叠的 GNN/Transformer 块,以及并行的 GNN/Transformer 块。
  • 在大图上对节点级任务使用子图采样,以使图感知模块可用。
  • 在图级任务(ZINC、ogbg-molhiv、ogbg-molpcba)和节点级任务(Flickr、ogbg-arxiv、ogbg-product)上进行评估。
  • 提供统计和定性分析,指出不同任务类型下哪种组件类型带来更大的增益。

实验结果

研究问题

  • RQ1图感知模块是否在图级和节点级任务中持续提升 Transformer 的性能?
  • RQ2哪种整合策略(GA、PE、AT)提供最稳定的增益,且在何种条件下?
  • RQ3在大多数任务中,GA 和 AT 是否比 PE 更有利,任务类型是否会影响最佳选择?
  • RQ4将图变换器扩展到大规模图的实际考虑因素有哪些?

主要发现

  • 图感知模块通常提升 Transformer 在图级和节点级任务上的性能。
  • GA 和 AT 方法往往带来比 PE 更大的增益。
  • 由于子图采样效应,图级任务的增益通常大于节点级任务的增益。
  • 在大多数图级任务中,AT 方法实现了最佳性能,而 GA 方法在节点级任务中更常表现出色。
  • 在 molpcba 上,图感知模块相较于原生 Transformer 最大实现了 56% 的提升。
  • 不同的图任务受益于不同的模块组(GA/AT 以获得更广泛的增益;PE 的收益则不那么稳定)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。