[论文解读] Pitfalls of Graph Neural Network Evaluation
本文表明,对GNN架构进行公平比较需要标准化的训练、超参数调优以及多的数据分割;否则,简单模型可能在取决于评估设置的情况下超越复杂模型。
Semi-supervised node classification in graphs is a fundamental problem in graph mining, and the recently proposed graph neural networks (GNNs) have achieved unparalleled results on this task. Due to their massive success, GNNs have attracted a lot of attention, and many novel architectures have been put forward. In this paper we show that existing evaluation strategies for GNN models have serious shortcomings. We show that using the same train/validation/test splits of the same datasets, as well as making significant changes to the training procedure (e.g. early stopping criteria) precludes a fair comparison of different architectures. We perform a thorough empirical evaluation of four prominent GNN models and show that considering different splits of the data leads to dramatically different rankings of models. Even more importantly, our findings suggest that simpler GNN architectures are able to outperform the more sophisticated ones if the hyperparameters and the training procedure are tuned fairly for all models.
研究动机与目标
- 在标准与多样的训练/评估设置下,评估GNN架构经验比较的可靠性。
- 评估不同的训练/验证/测试分割如何影响跨多个数据集的模型排序。
- 证明公平的超参数调优可以使更简单的模型超越更复杂的GNN。
提出的方法
- 在统一框架内实现四种GNN架构(GCN、MoNet、GAT、GraphSAGE),以实现公平比较。
- 在模型间标准化训练过程(优化器、初始化、早停、批处理策略),并进行全面的超参数网格搜索。
- 在八个数据集(四个知名数据集和四个新数据集)上进行评估,使用100个随机分割和每个分割20次初始化。
- 报告逐数据集结果以及相对性能指标,以评估对数据分割的鲁棒性。
实验结果
研究问题
- RQ1不同的训练/验证/测试分割如何影响GNN架构的相对性能?
- RQ2跨模型的公平超参数调优是否会改变哪种架构被认为更优?
- RQ3在评估标准化并对多个分割取平均时,简单模型(如GCN)是否会超过复杂模型?
- RQ4评估设置对在不同图数据集上报告的性能有何影响?
主要发现
- GNN 基于模型在多数数据集上通常优于基线,但在公平评估时没有单一架构占据主导。
- 当性能按最佳分割归一化时,GCN通常排名靠前,表明在公平调优下,简单模型可以与更复杂的模型接近甚至超越。
- 模型排序随不同数据分割而显著变化,单个分割的结果可能具有误导性。
- 某些模型(如在Amazon数据集上的GAT)可能因权重初始化而导致极高方差,影响平均性能。
- 使用多分割揭示超参数调优和训练过程在很大程度上驱动性能差异,而非架构本身。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。