[论文解读] Benchmarking Graphormer on Large-Scale Molecular Modeling Datasets
本技术说明通过架构调整和3D改造更新 Graphormer,在大规模分子数据集上取得更强的结果,并证明全局注意力在表示能力上可超越传统的 GNNs。
This technical note describes the recent updates of Graphormer, including architecture design modifications, and the adaption to 3D molecular dynamics simulation. With these simple modifications, Graphormer could attain better results on large-scale molecular modeling datasets than the vanilla one, and the performance gain could be consistently obtained on 2D and 3D molecular graph modeling tasks. In addition, we show that with a global receptive field and an adaptive aggregation strategy, Graphormer is more powerful than classic message-passing-based GNNs. Empirically, Graphormer could achieve much less MAE than the originally reported results on the PCQM4M quantum chemistry dataset used in KDD Cup 2021. In the meanwhile, it greatly outperforms the competitors in the recent Open Catalyst Challenge, which is a competition track on NeurIPS 2021 workshop, and aims to model the catalyst-adsorbate reaction system with advanced AI models. All codes could be found at https://github.com/Microsoft/Graphormer.
研究动机与目标
- 研究 Graphormer 变体在大规模分子性质预测任务中的性能。
- 评估诸如层归一化放置位置等架构选择对模型泛化性的影响。
- 将 Graphormer 扩展到具有空间与中心性编码的3D分子图。
- 在像 OC20 这样的3D分子数据集上评估 Graphormer 的能量预测精度。
- 通过分布式计算概念提供对 Graphormer 表达能力的理论见解。
提出的方法
- 在 PCQM4M v1 和 v2 数据集上比较 Graphormer 内的 Pre-LN 与 Post-LN Transformer 变体。
- 将 Graphormer 扩展至 24 层和 1024 个隐藏单元以评估深度影响。
- 将 Graphormer 适配为带有3D空间与中心性编码以及用于旋转等变性的3D注意力层。
- 在空间编码中应用高斯基函数来编码欧氏距离。
- 在 OC20 电催化剂数据集上评估,采用重复输出以提高精度,以及附加的节点级目标。
- 使用 CONGEST vs CONGESTED CLIQUE 模型来讨论表达能力,以说明全局感受野的优势。
实验结果
研究问题
- RQ1不同的层归一化放置位置(Pre-LN 与 Post-LN)如何影响 Graphormer 在大规模分子性质预测中的性能?
- RQ2将 Graphormer 扩展到3D分子图是否能提升在像 OC20 这样的3D数据集上的预测准确性?
- RQ3具有全局感受野的 Graphormer 是否能够在分子图上的表达能力方面超越传统 MPGNN?
- RQ4自适应注意力与3D编码对电催化剂数据集的能量预测有何影响?
- RQ52D 与3D Graphormer 变体在大规模分子建模基准(PCQM4M v1/v2 和 OC20)上是否具有一致的泛化性?
主要发现
| Variant / Model | Params | Train MAE PCQMv1 | Valid MAE PCQMv1 | Train MAE PCQMv2 | Valid MAE PCQMv2 |
|---|---|---|---|---|---|
| PreLN Base | 48.3M | 0.0266 | 0.1229 | 0.0266 | 0.0889 |
| PreLN Large | 159.3M | 0.0172 | 0.1213 | 0.0173 | 0.0879 |
| PostLN Base | 48.3M | 0.0416 | 0.1193 | 0.0348 | 0.0864 |
| PostLN Large | 159.3M | 0.0212 | 0.1228 | 0.0186 | 0.0883 |
| Source |
- 在大型模型中,Post-LN 的 Graphormer 变体通常比 Pre-LN 变体在 PCQM4M v1/v2 上具有更好的泛化性。
- 24 层的 Graphormer 展现出不同的泛化行为,表明通过进一步调优有望获得更好的泛化性。
- 使用带高斯基函数的空间距离和具旋转感知的3D注意力的3D改造提升了3D分子建模性能。
- 在 OC20 能量预测上,Graphormer 取得了强劲结果,集成变体带来显著提升。
- 理论框架表明 Graphormer 的全局感受野提升了表达能力,超越本地的 MP GNN,与分布式计算的洞见一致。
- Graphormer 相较早期报道可以显著降低 PCQM4M 数据集的 MAE,并且在 OC20 基准测试上超过竞争对手。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。