[论文解读] Graph-Bert: Only Attention is Needed for Learning Graph Representations
Graph-Bert 是一种仅使用注意力的图神经网络,在无链接子图上进行训练,采用无监督预训练并对节点分类和图聚类等任务进行微调,在基准数据集上取得了优异结果。
The dominant graph neural networks (GNNs) over-rely on the graph links, several serious performance problems with which have been witnessed already, e.g., suspended animation problem and over-smoothing problem. What's more, the inherently inter-connected nature precludes parallelization within the graph, which becomes critical for large-sized graph, as memory constraints limit batching across the nodes. In this paper, we will introduce a new graph neural network, namely GRAPH-BERT (Graph based BERT), solely based on the attention mechanism without any graph convolution or aggregation operators. Instead of feeding GRAPH-BERT with the complete large input graph, we propose to train GRAPH-BERT with sampled linkless subgraphs within their local contexts. GRAPH-BERT can be learned effectively in a standalone mode. Meanwhile, a pre-trained GRAPH-BERT can also be transferred to other application tasks directly or with necessary fine-tuning if any supervised label information or certain application oriented objective is available. We have tested the effectiveness of GRAPH-BERT on several graph benchmark datasets. Based the pre-trained GRAPH-BERT with the node attribute reconstruction and structure recovery tasks, we further fine-tune GRAPH-BERT on node classification and graph clustering tasks specifically. The experimental results have demonstrated that GRAPH-BERT can out-perform the existing GNNs in both the learning effectiveness and efficiency.
研究动机与目标
- 解决传统 GNNs 依赖图边连接所带来的低效和问题(如悬空现象和过平滑)。
- 提出 Graph-Bert,一种基于 Transformer 的 GNN,它在没有图卷积的情况下运作,并使用采样的无链接子图进行训练。
- 通过节点属性重建和图结构恢复实现无监督预训练,随后进行任务特定的微调与迁移。
- 证明预训练的 Graph-Bert 可以迁移到相关任务和序列模型,提升学习效率与效能。
提出的方法
- 提出 Graph-Bert 架构,包含五个组成部分:无链接子图分批、节点输入嵌入、基于图 Transformer 的编码器、表征融合,以及面向任务的函数组件。
- 使用通过 top-k 亲密性采样定义的子图,基于 PageRank 的亲密性矩阵形成学习上下文。
- 通过汇聚原始特征、WL 绝对角色嵌入、基于亲密性的相对位置嵌入、以及基于跳数的相对距离嵌入来计算节点输入向量。
- 将这些嵌入通过多层注意力的图变换器编码器处理,并在每个子图内引入传播信息的图残差项。
- 在两个任务上进行预训练——节点属性重建和图结构恢复——然后针对节点分类或图聚类进行微调。
实验结果
研究问题
- RQ1Graph-Bert 是否能够在不依赖图边连通性的情况下学习有意义的图表示?
- RQ2无链接子图批次结合基于注意力的编码是否能在标准基准上达到有竞争力甚至优于基于边的 GNN?
- RQ3无监督预训练任务(节点属性重建与结构恢复)对下游图任务的有效性如何?
- RQ4在不进行完全再训练的情况下,Graph-Bert 能在多大程度上迁移到相关任务或序列模型?
主要发现
- Graph-Bert 在 Cora、Citeseer 和 PubMed 数据集的节点分类任务上优于若干基线方法(在 Cora 上报道最好为 0.843)。
- Citeseer 和 PubMed 的节点分类性能具有竞争力,Graph-Bert 在报告结果中分别达到 0.712 和 0.793。
- 在节点属性重建和结构恢复上的预训练收敛迅速,并支持对下游任务进行有效微调。
- Graph-Bert 能支持非常深的体系结构而不出现悬空现象,训练成功达到 50 层。
- 子图大小 k 对性能有显著影响;通常随着 k 增大到某一点(如 Cora 的结果展示到 k=7)会提升准确性。
- 在有预训练和微调的条件下,Graph-Bert 相对于包括 GCN 与 GAT 变体在内的多种基线表现出显著的性能提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。