[论文解读] Tackling Over-Smoothing for General Graph Convolutional Networks
本文分析通用 GCNs 的过平滑问题,证明深层网络会收敛到一个立方体,并提出 DropEdge 来缓解该问题,结合理论与实验。
Increasing the depth of GCN, which is expected to permit more expressivity, is shown to incur performance detriment especially on node classification. The main cause of this lies in over-smoothing. The over-smoothing issue drives the output of GCN towards a space that contains limited distinguished information among nodes, leading to poor expressivity. Several works on refining the architecture of deep GCN have been proposed, but it is still unknown in theory whether or not these refinements are able to relieve over-smoothing. In this paper, we first theoretically analyze how general GCNs act with the increase in depth, including generic GCN, GCN with bias, ResGCN, and APPNP. We find that all these models are characterized by a universal process: all nodes converging to a cuboid. Upon this theorem, we propose DropEdge to alleviate over-smoothing by randomly removing a certain number of edges at each training epoch. Theoretically, DropEdge either reduces the convergence speed of over-smoothing or relieves the information loss caused by dimension collapse. Experimental evaluations on simulated dataset have visualized the difference in over-smoothing between different GCNs. Moreover, extensive experiments on several real benchmarks support that DropEdge consistently improves the performance on a variety of both shallow and deep GCNs.
研究动机与目标
- 解释为什么更深的 GCN 在通用 GCNs、GCN-b、ResGCN 和 APPNP 中会出现过平滑的问题。
- 表征深层 GCN 在非线性下的渐近行为。
- 提出 DropEdge 以缓解过平滑并分析其理论影响。
- 在多个节点分类基准上展示 DropEdge 的经验改进。
提出的方法
- 定义增强的归一化邻接矩阵和由其前几个特征向量张成的子空间 M。
- 证明一个通用的过平滑定理,显示对若干 GCN 变体收敛到一个立方体 O(M, r)。
- 引入 DropEdge:在训练过程中以概率 p 随机丢弃边并重新归一化。
- 提供理论界限,表明 DropEdge 如何增大特征谱半径界限并减缓收敛到过平滑。
- 显示 DropEdge 既是一种对过拟合的正则化,也通过扩大有效表现空间来保留信息的机制。
- 在跨多个基准的浅层和深层 GCN 主干上评估 DropEdge。
实验结果
研究问题
- RQ1为什么随深度增加,通用深层 GCN 会收敛到低方差表征(过平滑)?
- RQ2像 GCN-b、ResGCN 和 APPNP 这样的变体在收敛到子空间或立方体方面有何不同?
- RQ3一种简单的边缘丢失策略(DropEdge)是否在理论和实证上缓解这些模型的过平滑?
- RQ4DropEdge 对训练过程中的模型表达能力和稳定性有什么影响?
主要发现
- 所有四种模型在无限深度下都收敛到一个立方体,而半径 r 取决于模型。
- 不带偏置的 GCN 收敛到零半径子空间,证实了过平滑。
- 带偏置的 GCN 与 APPNP 收敛到具有非零半径的立方体,减缓信息丢失。
- DropEdge 增大了有效谱界(lambda)并降低了过平滑的速度。
- DropEdge 既是对抗过拟合的正则化,也通过扩大有效表示空间来保留信息的机制。
- 经验结果显示 DropEdge 在若干节点分类基准上对浅层和深层 GCN 变体均有性能提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。