[论文解读] Is Homophily a Necessity for Graph Neural Networks?
本文表明在某些条件下,GCN 在异质图上也能取得良好表现,并分析在强 SSNC 性能中,同质性何时是必要、何时不是。
Graph neural networks (GNNs) have shown great prowess in learning representations suitable for numerous graph-based machine learning tasks. When applied to semi-supervised node classification, GNNs are widely believed to work well due to the homophily assumption ("like attracts like"), and fail to generalize to heterophilous graphs where dissimilar nodes connect. Recent works design new architectures to overcome such heterophily-related limitations, citing poor baseline performance and new architecture improvements on a few heterophilous graph benchmark datasets as evidence for this notion. In our experiments, we empirically find that standard graph convolutional networks (GCNs) can actually achieve better performance than such carefully designed methods on some commonly used heterophilous graphs. This motivates us to reconsider whether homophily is truly necessary for good GNN performance. We find that this claim is not quite true, and in fact, GCNs can achieve strong performance on heterophilous graphs under certain conditions. Our work carefully characterizes these conditions, and provides supporting theoretical understanding and empirical observations. Finally, we examine existing heterophilous graphs benchmarks and reconcile how the GCN (under)performs on them based on this understanding.
研究动机与目标
- 研究同质性在半监督节点分类中对GCN性能的作用。
- 描述GCNs在异质图上可能表现良好的条件。
- 基于嵌入行为和邻域分布提供理论解释。
- 在真实世界和合成的异质图上评估GCNs,并与针对异质性的模型进行比较。
提出的方法
- 在特征分布和邻居分布的假设下,理论分析GCN嵌入。
- 使用带上下文的随机块模型(CSBM)研究GCN平滑后的线性可分性。
- 推导界限,显示同标签嵌入聚集,以及邻居分布对可分性的影响。
- 通过定向添加边和受控噪声,实证性创建合成异质图,以研究性能趋势。
- 在标准基准上将GCN与MLP以及针对异质性的架构进行比较。
实验结果
研究问题
- RQ1在何种异质性条件下,标准GCN能够实现强烈的SSNC 性能?
- RQ2节点度数和邻域分布的可区分性如何影响GCN的有效性?
- RQ3哪些解释能够解释在异质现实世界图上观察到的GCN性能?
- RQ4对邻域模式的合成扰动如何影响GCN与专用模型的表现?
主要发现
- GCN 在某些异质图上,在合适的超参数调优下可以超过针对异质性的模型。
- 若同标签节点的邻域模式分布相似,则它们的GCN嵌入也可能相似,从而实现良好的SSNC。
- 当邻居分布可区分时,高度节点的性能提升;极为相似的分布收益有限。
- 存在“良好”与“差的”异质性;异质性并不足以导致GCN表现差。
- 在真实基准上,GCN 在某些异质图(如 Squirrel、Chameleon)上比 MLP 表现更好,在其他图上则更差。
- 按照目标邻域分布添加边可能产生V形性能趋势,突显对拓扑依赖性的相变。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。