[论文解读] Large Scale Learning on Non-Homophilous Graphs: New Benchmarks and Strong Simple Methods
将论文介绍大规模非同质图基准和一个简单可扩展模型 LINKX,其性能优于基线且在简单小批量训练下依然有效。
Many widely used datasets for graph machine learning tasks have generally been homophilous, where nodes with similar labels connect to each other. Recently, new Graph Neural Networks (GNNs) have been developed that move beyond the homophily regime; however, their evaluation has often been conducted on small graphs with limited application domains. We collect and introduce diverse non-homophilous datasets from a variety of application areas that have up to 384x more nodes and 1398x more edges than prior datasets. We further show that existing scalable graph learning and graph minibatching techniques lead to performance degradation on these non-homophilous datasets, thus highlighting the need for further work on scalable non-homophilous methods. To address these concerns, we introduce LINKX -- a strong simple method that admits straightforward minibatch training and inference. Extensive experimental results with representative simple methods and GNNs across our proposed datasets show that LINKX achieves state-of-the-art performance for learning on non-homophilous graphs. Our codes and data are available at https://github.com/CUAI/Non-Homophily-Large-Scale.
研究动机与目标
- 提出动机并解决缺乏用于评估可扩展图学习方法的大规模、多样化非同质图数据集的问题。
- 证明现有的小批量训练和可扩展方法在大规模非同质设置中的表现不佳。
- 提出一个简单、可扩展的模型 LINKX,将邻接信息和特征信息结合以实现强性能。
- 通过广泛实验证明 LINKX 在所提数据集上优于广泛的基线和 GNN。
提出的方法
- 引入一组跨多领域的大型非同质数据集,节点数比以往工作多达 384 倍,边数多达 1398 倍。
- 为若干数据集定义节点特征,并提出修订的非同质性度量 hat{h} 以评估偏离随机图无效模型的程度。
- 提出 LINKX,它将邻接矩阵 A 与节点特征 X 分别用 MLPs 编嵌,拼接嵌入后,通过带跳连接的线性变换,并经过一个 MLP 来预测标签。
- 为 LINKX 提供一个友好的小批量训练与推理方案,避免 GNN 的图相关小批量复杂性。
- 将 LINKX 与广泛的基线进行比较,包括 MLP、LINK、SGC、C&S,以及在新数据集上关注非同质性的现代 GNN。
实验结果
研究问题
- RQ1在数据集规模和现有方法性能方面,大型非同质图与传统同质基准有何不同?
- RQ2将当前图小批量训练和可扩展方法应用于非同质图时的表现如何?
- RQ3一个将邻接和特征信息分离后再融合的简单模型是否能在非同质设置中达到最先进的性能?
- RQ4简单的 i.i.d. 节点小批量策略是否足以实现对大型非同质图的可扩展学习?
- RQ5在所提基准上,与广泛基线相比,LINKX 的经验性能如何?
主要发现
- 作者组建了规模大、结构多样的非同质图,节点和边数量显著高于以往数据集,便于可扩展评估。
- 图小批量技术(如 GraphSAINT)在非同质设置下性能显著下降,尤其在大图上。
- 基于同质性假设的可扩展方法(如 SGC、C&S)在非同质数据上表现欠佳,强调需要为非同质性定制的方法。
- LINKX, 一个简单地将邻接与节点特征分开嵌入后再组合的模型,在所提非同质基准上达到最新研究水平。
- LINKX 支持直接的 i.i.d. 节点小批量训练,能扩展到大规模图,优于许多基线和其他非同质方法。
- 在大规模图的小批量实验中,LINKX 能达到或超过包括 GNNs 和基于 GraphSAINT 的方法在内的替代方案,同时保持计算效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。