Skip to main content
QUICK REVIEW

[论文解读] On Over-Squashing in Message Passing Neural Networks: The Impact of Width, Depth, and Topology

Francesco Di Giovanni, Lorenzo Giusti|arXiv (Cornell University)|Feb 6, 2023
Advanced Memory and Neural Computing被引用 31
一句话总结

本文提供了关于消息传递神经网络(MPNN)中过度挤压(over-squashing)的理论分析,显示宽度可以缓解这一问题,但可能以潜在的泛化成本为代价;深度通常并不能帮助,且可能导致梯度消失;图拓扑(特别是交换时间)是影响过度挤压的决定性因素。

ABSTRACT

Message Passing Neural Networks (MPNNs) are instances of Graph Neural Networks that leverage the graph to send messages over the edges. This inductive bias leads to a phenomenon known as over-squashing, where a node feature is insensitive to information contained at distant nodes. Despite recent methods introduced to mitigate this issue, an understanding of the causes for over-squashing and of possible solutions are lacking. In this theoretical work, we prove that: (i) Neural network width can mitigate over-squashing, but at the cost of making the whole network more sensitive; (ii) Conversely, depth cannot help mitigate over-squashing: increasing the number of layers leads to over-squashing being dominated by vanishing gradients; (iii) The graph topology plays the greatest role, since over-squashing occurs between nodes at high commute (access) time. Our analysis provides a unified framework to study different recent methods introduced to cope with over-squashing and serves as a justification for a class of methods that fall under graph rewiring.

研究动机与目标

  • 理解宽度如何影响过度挤压及其在泛化中的权衡。
  • 研究增加深度是否能够缓解过度挤压,并确定在何种情形下会恶化训练。
  • 分析图拓扑和谱如何影响超出局部曲率界限的过度挤压。
  • 提供一个统一框架,将空间重连和谱重连方法与过度挤压联系起来。
  • 提供对图重连方法作为缓解过度挤压的分析性理论支持。

提出的方法

  • 将敏感性分析扩展到带宽度参数 p 的 MPNN 的高维节点特征。
  • 通过雅可比界来研究 MPNN 动力学:||∂h_v^(m)/∂h_u^(0)||_L1 ≤ (c_sigma p w)^m (S_r,a^m)_{vu}。
  • 证明当拓扑诱导项随距离衰减时,宽度可以缓解过度挤压。
  • 分析深度区间:浅直径阶段,在远距离节点之间出现过度挤压;深阶段梯度消失占优。
  • 通过到达时间、交换时间和 Cheeger 相关的谱性质将过度挤压与图拓扑联系起来。
  • 推导将雅可比灵敏度与图遍历联系到拓扑驱动的过度挤压的条件(定理 4.1),以及在谱范数约束下梯度消失的严重性(定理 4.2)。
  • 提供一个将结构性重连(空间和谱)与通过拓扑/谱度量实现的过度挤压降低联系起来的框架。

实验结果

研究问题

  • RQ1增加宽度是否会缓解过度挤压?以及对泛化的代价是什么?
  • RQ2更深的网络能缓解过度挤压吗,还是会造成梯度消失或其他缺点?
  • RQ3包括交换时间和谱在内的图拓扑如何超越局部曲率论点影响过度挤压?
  • RQ4空间和谱重连策略是否始终能减轻过度挤压,是否可以在一个统一框架下统一?
  • RQ5在何种条件下,基于雅可比的敏感性度量能够预测远距离节点交互时的过度挤压发生?

主要发现

  • 宽度通过增加模型容量和与 Lipschitz 相关的因素来缓解过度挤压,但可能损害泛化。
  • 深度通常不能解决过度挤压;当 m 与图直径数量级相当时,远距离节点交互会出现过度挤压,且当 m 较大时梯度可能消失。
  • 拓扑通过最小度和遍历计数强烈决定过度挤压出现的距离,往往比曲率因素更具决定性。
  • 过度挤压与节点之间的访问时间相关,交换时间/等效阻抗框架解释了空间和谱重连方法的有效性。
  • 在深层阶段,在某些谱范数界限下,梯度随层数呈指数衰减,揭示了深层 MPNN 在长程依赖方面的根本限制。
  • 该工作为各种重连方法(空间和谱)的统一解释,作为与图拓扑和谱相关的缓解因素。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。