[论文解读] GraphFormers: GNN-nested Transformers for Representation Learning on Textual Graph
GraphFormers 将 GNNs 与基于 Transformer 的文本编码器紧密结合,在 Transformer 层内嵌层次化 GNN,从而实现文本图的迭代联合文本编码与邻域聚合。
The representation learning on textual graph is to generate low-dimensional embeddings for the nodes based on the individual textual features and the neighbourhood information. Recent breakthroughs on pretrained language models and graph neural networks push forward the development of corresponding techniques. The existing works mainly rely on the cascaded model architecture: the textual features of nodes are independently encoded by language models at first; the textual embeddings are aggregated by graph neural networks afterwards. However, the above architecture is limited due to the independent modeling of textual features. In this work, we propose GraphFormers, where layerwise GNN components are nested alongside the transformer blocks of language models. With the proposed architecture, the text encoding and the graph aggregation are fused into an iterative workflow, {making} each node's semantic accurately comprehended from the global perspective. In addition, a {progressive} learning strategy is introduced, where the model is successively trained on manipulated data and original data to reinforce its capability of integrating information on graph. Extensive evaluations are conducted on three large-scale benchmark datasets, where GraphFormers outperform the SOTA baselines with comparable running efficiency.
研究动机与目标
- 通过联合建模文本与图信息,提升文本图的表示。
- 提出一个 GNN 嵌套 Transformer 架构,在迭代工作流中融合文本编码与图聚合。
- 通过渐进式数据扰动和单向图注意力来提升训练与效率。
- 在大规模文本图上进行实证验证,并与级联的 Transformer-GNN 基线进行比较。
提出的方法
- 提出 GNN 嵌套的 Transformer,其中逐层的 GNN 与 Transformer 块并列工作,在每一层交换邻域信息。
- 使用带可学习位置偏置的多头注意力来执行图聚合并产生带图信息的 Token 级嵌入。
- 用 Transformer 层处理带图信息的嵌入,以生成最终的节点表示。
- 可选地应用单向图聚合以缓存邻居编码并减少冗余计算。
- 采用两阶段渐进学习策略:先在污染数据上训练以强化图信息的使用,然后在原始数据上微调。
- 采用带同批次否定样本和非对称注意力的链接预测目标训练,以计算查询-键-值交互。
实验结果
研究问题
- RQ1GNN 嵌套 Transformer 架构是否在文本图上的连边预测性能优于级联的 Transformer-GNN 基线?
- RQ2训练策略(渐进学习、单向聚合)如何影响表征质量与效率?
- RQ3改变邻居数量对性能与效率有何影响?
- RQ4GraphFormers 与大规模数据集上的级联方法相比在效率上有何差异?
主要发现
- GraphFormers 在三大规模数据集(Product、DBLP、Wiki)上持续优于级联的 Transformer-GNN 基线。
- 相对改进 相对于有竞争力的基线分别在 Product、DBLP、Wiki 上报告为 2.9%、4.8%、6.5%。
- 当使用更丰富的邻域上下文时,模型在精度、NDCG 和 MRR 上表现更高,但随着邻居增加,回报递减。
- 两阶段渐进学习显著提升性能,而单向图聚合在减少计算的同时保持准确性。
- 效率分析显示 GraphFormers 的时间和内存成本与 PLM+Max 相近,即使邻居数量增多,逐层图处理的开销也仅有适度增加。
- 消融研究证实渐进学习的价值,以及简化的单向方法的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。