[论文解读] On the Bottleneck of Graph Neural Networks and its Practical Implications
本文识别了GNN中的一个根本瓶颈——对长距离信息的过度挤压,并展示通过打破瓶颈(例如在最后一层使用完全邻接的层)在多领域取得巨大的性能提升且无需额外调参。
Since the proposal of the graph neural network (GNN) by Gori et al. (2005) and Scarselli et al. (2008), one of the major problems in training GNNs was their struggle to propagate information between distant nodes in the graph. We propose a new explanation for this problem: GNNs are susceptible to a bottleneck when aggregating messages across a long path. This bottleneck causes the over-squashing of exponentially growing information into fixed-size vectors. As a result, GNNs fail to propagate messages originating from distant nodes and perform poorly when the prediction task depends on long-range interaction. In this paper, we highlight the inherent problem of over-squashing in GNNs: we demonstrate that the bottleneck hinders popular GNNs from fitting long-range signals in the training data; we further show that GNNs that absorb incoming edges equally, such as GCN and GIN, are more susceptible to over-squashing than GAT and GGNN; finally, we show that prior work, which extensively tuned GNN models of long-range problems, suffers from over-squashing, and that breaking the bottleneck improves their state-of-the-art results without any tuning or additional weights. Our code is available at https://github.com/tech-srl/bottleneck/ .
研究动机与目标
- 激励并形式化GNN中的长距离信息传播问题,提出过度挤压瓶颈。
- 在合成任务和真实世界任务上实证地展示瓶颈限制了对长距离信号的拟合能力。
- 证明通过打破瓶颈在不进行超参数调优的情况下提升了最新的结果。
提出的方法
- 定义问题半径 r 和感受野 N_v^K,以量化长距离依赖。
- 显示感受野中节点数量随 K 指数增长,聚合信息时会导致信息瓶颈。
- 将GNN变体(GCN、GIN、GAT、GGNN)在合成的NeighborsMatch上进行比较,揭示对过度挤压的敏感差异。
- 通过将最后一层转换为完全邻接(FA)层并在不增加额外权重的前提下重新训练现有的调参模型来打破瓶颈。
- 在QM9、NCI1、ENZYMES和VarMisuse基准上应用FA,以量化性能提升。
- 给出隐藏层维度 d 相对于问题半径 r 的理论下界,说明作为修复的维度增加的极限。
实验结果
研究问题
- RQ1GNN中的瓶颈是什么,使得无法传播长距离信息?
- RQ2过度挤压如何影响不同GNN架构拟合长距离信号的能力?
- RQ3通过简单的结构调整(如FA层)打破瓶颈,是否能在不额外调参的情况下在不同领域获得显著性能提升?
- RQ4给定问题半径,拟合长距离模式所需隐藏维度的理论极限(下界)是什么?
- RQ5在合成和真实世界的长距离任务中,打破瓶颈带来的经验收益是否持续?
主要发现
| 属性 | 基线 | +FA |
|---|---|---|
| mu | 2.64 \u0000b1 0.11 | 2.54 \u0000b1 0.09 |
| alpha | 4.67 \u0000b1 0.52 | 2.28 \u0000b1 0.04 |
| HOMO | 1.42 \u0000b1 0.01 | 1.26 \u0000b1 0.02 |
| LUMO | 1.50 \u0010b 0.09 | 1.34 \u0000b1 0.04 |
| gap | 2.27 \u0000b1 0.09 | 2.08 \u0000b1 0.05 |
| R2 | 15.63 \u0000b1 1.40 | 12.61 \u0000b1 0.37 |
| ZPVE | 12.93 \u0000b1 1.81 | 5.03 \u0000b1 0.36 |
| U0 | 5.88 \u0000b1 1.01 | 2.21 \u0000b1 0.12 |
| U | 18.71 \u0000b1 23.36 | 2.32 \u0000b1 0.18 |
| H | 5.62 \u0000b1 0.81 | 2.26 \u0000b1 0.19 |
| G | 5.38 \u0000b1 0.75 | 2.04 \u0000b1 0.24 |
| Cv | 3.53 \u0000b1 0.37 | 1.86 \u0000b1 0.03 |
| Omega | 1.05 \u0000b1 0.11 | 0.80 \u0000b1 0.04 |
- 随着问题半径的增加,过度挤压使GNN难以拟合长距离信号;在若干架构上甚至训练准确率在 r≥4 时也会下降。
- 由于如何聚合邻居再与节点状态结合的方式,GCN和GIN比GAT和GGNN更易受到过度挤压的影响。
- 在QM9上引入完全邻接(FA)最后一层,六种GNN类型的误差显著降低(平均降低约42%),表明是瓶颈效应而非单纯的扩展到达域。
- 在QM9上,FA在不额外调参的情况下提升了性能;带FA层的模型在多种属性上相对于基线模型显示了显著的收益。
- 在生物基准(NCI1、ENZYMES)和程序分析(VarMisuse)中,FA层持续带来性能提升,表明标准GNN中普遍存在瓶颈。
- 组合分析和实证分析表明隐藏维度需要随问题半径指数级增长才能完美拟合数据,凸显固定维度表示的固有限制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。