[论文解读] Are we really making much progress? Revisiting, benchmarking, and refining heterogeneous graph neural networks
本文系统性地复现了12种突出的异构GNNs,表明在适当设置下,简单的同质GNNs 也能达到甚至超越它们,并引入异构图基准测试(HGB)以及一个强大的 Simple-HGN 基线。
Heterogeneous graph neural networks (HGNNs) have been blossoming in recent years, but the unique data processing and evaluation setups used by each work obstruct a full understanding of their advancements. In this work, we present a systematical reproduction of 12 recent HGNNs by using their official codes, datasets, settings, and hyperparameters, revealing surprising findings about the progress of HGNNs. We find that the simple homogeneous GNNs, e.g., GCN and GAT, are largely underestimated due to improper settings. GAT with proper inputs can generally match or outperform all existing HGNNs across various scenarios. To facilitate robust and reproducible HGNN research, we construct the Heterogeneous Graph Benchmark (HGB), consisting of 11 diverse datasets with three tasks. HGB standardizes the process of heterogeneous graph data splits, feature processing, and performance evaluation. Finally, we introduce a simple but very strong baseline Simple-HGN--which significantly outperforms all previous models on HGB--to accelerate the advancement of HGNNs in the future.
研究动机与目标
- 通过在官方代码、数据集和设置下复现知名模型,评估异构图神经网络(HGNN)在多大程度上取得了进展。
- 识别可能夸大 HGNN 进展感知的实验设置中的偏差和问题。
- 提供一个标准化基准测试(HGB),以在多样化任务中实现对 HGNN 的公平、可重复评估。
- 提出一个简单、强大的基线(Simple-HGN),以加速并澄清 HGNN 发展。
提出的方法
- 系统性复现12个流行的HGNN模型,使用它们的官方代码、数据集和超参数,与同质基线(GCN/GAT)进行公平比较。
- 分析实验设置,识别数据泄露、不当基线以及以往 HGNN 工作中的低效问题。
- 构建含11个数据集和三项任务的异构图基准测试(HGB),标准化数据划分、特征处理和评估流程。
- 以标准化基线对 HGNN 进行评估,并在各任务上报告可重复的性能。
- 开发 Simple-HGN,一种基于 GAT 的模型,增添可学习的边类型嵌入、残差连接和输出归一化,以证明一个强大且简单的基线。
实验结果
研究问题
- RQ1同质 GNNs(如 GCN 和 GAT)在与 HGNNs 公平比较时,是否因为设置不佳而表现不佳?
- RQ2在 HGNN 文献中导致不一致或夸大进展的主要因素是什么?
- RQ3标准化基准(HGB)能否实现公平、稳健的比较并促使 HGNN 取得真正的进展?
- RQ4一个简单、调优良好的基线(Simple-HGN)是否在多样化的异构图任务中超过现有 HGNN 模型?
主要发现
- 公正复现表明,当输入和设置得到妥善处理时,简单的 GNNs 往往可以匹配甚至超越 HGNNs。
- 先前 HGNN 研究中的一些报告结果源于数据泄露或不当的训练/测试划分。
- 在许多异构数据集上,元路径并非总是实现强性能的必要条件。
- 标准化基准(HGB)及其排行榜使跨任务、跨数据集的可重复评估成为可能。
- Simple-HGN,是一个以 GAT 为基础、带边类型嵌入、残差连接和输出归一化的模型,在 HGB 上持续优于以往的 HGNN。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。