QUICK REVIEW

[论文解读] First Place Solution of KDD Cup 2021 OGB Large-Scale Challenge Graph-Level Track

Chengxuan Ying, Mingqi Yang|arXiv (Cornell University)|Jun 15, 2021

Web Data Mining and Analysis被引用 1

一句话总结

本论文展示了KDD Cup 2021 OGB Large-Scale Challenge图级别任务的获胜解决方案，采用Graphormer和ExpC模型，通过8折交叉验证进行训练，并在合并的训练/验证集上进行额外训练。最终提交采用18个模型的简单平均集成，测试集MAE达到0.1200，获得第一名。

ABSTRACT

In this technical report, we present our solution of KDD Cup 2021 OGB Large-Scale Challenge - PCQM4M-LSC Track. We adopt Graphormer and ExpC as our basic models. We train each model by 8-fold cross-validation, and additionally train two Graphormer models on the union of training and validation sets with different random seeds. For final submission, we use a naive ensemble for these 18 models by taking average of their outputs. Using our method, our team MachineLearning achieved 0.1200 MAE on test set, which won the first place in KDD Cup graph-level track.

研究动机与目标

为KDD Cup 2021 OGB挑战赛中的PCQM4M-LSC数据集开发一个稳健且准确的图级别回归模型。
解决大规模分子图回归任务中实现高精度预测的挑战。
通过有效结合多个模型，在测试集上实现最先进性能。
利用交叉验证和数据合并策略提升模型泛化能力。

提出的方法

作者使用Graphormer和ExpC作为图级别回归的基础模型。
每个模型均在训练集上通过8折交叉验证进行训练。
额外训练了两个Graphormer模型，其训练数据为训练集与验证集的并集，且随机种子不同。
最终预测通过简单平均18个不同模型的输出，采用朴素集成策略生成。
该方法通过不同的训练划分和初始化方式，强调模型多样性与鲁棒性。

实验结果

研究问题

RQ1Graphormer与ExpC模型的组合是否能在大规模分子图回归任务中实现更优性能？
RQ2通过多样化训练划分和数据合并策略进行模型集成，在提升泛化能力方面是否有效？
RQ3通过交叉验证和在合并数据集上的额外训练，能够获得多大的性能提升？
RQ4在此设置下，简单平均集成是否优于更复杂的集成方法？

主要发现

所提出的集成方法在测试集上实现了0.1200的MAE，是KDD Cup 2021 OGB Large-Scale Challenge中的最佳结果。
采用8折交叉验证提升了模型在不同数据划分下的稳定性和泛化能力。
在训练集与验证集并集上额外训练Graphormer模型进一步提升了性能。
18个模型的朴素集成优于单个模型，证明了在此设置下模型平均的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。