[论文解读] Where Did the Gap Go? Reassessing the Long-Range Graph Benchmark
本文重新评估了长程图基准(LRGB)的表现,表明图注意力网络(Graph Transformers)与消息传递图神经网络(MPGNNs)之间报告的性能差距主要源于次优的超参数选择。经过严格的超参数调优后,GCN 和 GatedGCN 等 MPGNN 模型在多个数据集上超越了 GPS,甚至在 Peptides-Struct 上实现了最先进性能;同时,特征归一化与合理的指标过滤策略进一步缩小了视觉任务和链接预测任务中的性能差距。
The recent Long-Range Graph Benchmark (LRGB, Dwivedi et al. 2022) introduced a set of graph learning tasks strongly dependent on long-range interaction between vertices. Empirical evidence suggests that on these tasks Graph Transformers significantly outperform Message Passing GNNs (MPGNNs). In this paper, we carefully reevaluate multiple MPGNN baselines as well as the Graph Transformer GPS (Rampášek et al. 2022) on LRGB. Through a rigorous empirical analysis, we demonstrate that the reported performance gap is overestimated due to suboptimal hyperparameter choices. It is noteworthy that across multiple datasets the performance gap completely vanishes after basic hyperparameter optimization. In addition, we discuss the impact of lacking feature normalization for LRGB's vision datasets and highlight a spurious implementation of LRGB's link prediction metric. The principal aim of our paper is to establish a higher standard of empirical rigor within the graph machine learning community.
研究动机与目标
- 通过严格的超参数调优,重新评估图注意力网络与 MPGNN 在长程图基准(LRGB)上的性能差距。
- 探究图注意力网络相对于 MPGNN 的报告优势是否源于架构优势,还是次优基线配置所致。
- 评估输入特征归一化对基于视觉的 LRGB 数据集(PascalVOC-SP 与 COCO-SP)上 MPGNN 性能的影响。
- 分析 PCQM-Contact 链接预测任务中 MRR 指标对负样本过滤策略的敏感性。
- 通过可复现、充分调优的基线与一致的评估协议,倡导图机器学习领域提升实证标准。
提出的方法
- 在严格 500k 参数预算下,对 GCN、GINE、GatedGCN 和 GPS 进行系统性的超参数搜索。
- 将 MPGNN 中原始的线性预测头替换为多层感知机(MLP)头,以更好地建模非线性目标函数。
- 在超像素数据集上,对节点和边特征应用特征归一化(按通道计算均值与标准差)。
- 在 PCQM-Contact 上重新实现链接预测评估,采用多种过滤策略:原始(raw)、过滤(移除假阴性样本)、扩展过滤(移除自环)。
- 所有模型采用相同的训练与评估协议,确保公平比较。
- 通过消融实验隔离归一化与超参数调优对性能及方差的影响。
实验结果
研究问题
- RQ1在 LRGB 上,超参数调优在多大程度上弥合了图注意力网络与 MPGNN 之间的性能差距?
- RQ2输入特征归一化在多大程度上影响了 MPGNN 在基于视觉的 LRGB 数据集上的表现?
- RQ3对负样本采用不同的过滤策略,如何影响 PCQM-Contact 链接预测任务中的 MRR 得分?
- RQ4当 MPGNN 被调优至最优配置时,图注意力网络在 LRGB 上的性能优势是否依然存在?
- RQ5预测头架构在建模图学习任务中长程依赖关系方面起到何种作用?
主要发现
- 经过超参数调优后,GCN 和 GatedGCN 在 Peptides-Struct 上表现优于 GPS,分别实现了 0.2460 和 0.2477 的最先进 MAE。
- 在 Peptides-Struct 与 Peptides-Func 上,图注意力网络与 MPGNN 之间的性能差距在调优后消失,MPGNN 达到了相当或更优的结果。
- 特征归一化使 PascalVOC-SP 与 COCO-SP 上的 F1 分数提升最高达 10 个百分点,GPS 分别达到 44.40% 和 38.84% 的 F1。
- 当超参数被调优后,PCQM-Contact 上的 MRR 得分提升约 3%;若进一步移除自环,提升最高可达 10 个百分点。
- 在正确过滤与调优条件下,原始报告中 GPS 在 PCQM-Contact 上的性能优势不可复现,仅在扩展过滤设置中略胜 MPGNN 一筹。
- 过滤策略的选择——尤其是自环的移除——对 MRR 有显著影响,表明指标实现细节对模型比较具有重大影响。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。