Skip to main content
QUICK REVIEW

[论文解读] A Note on Over-Smoothing for Graph Neural Networks

Chen Cai, Yusu Wang|arXiv (Cornell University)|Jun 23, 2020
Advanced Graph Neural Networks参考文献 19被引用 96
一句话总结

本文通过 Dirichlet 能量分析非线性 GNN 的过平滑,表明随着层数增加,嵌入可能丧失判别能力,并提供一种处理 Leaky ReLU 和可变维度的替代证明,以及关于边操作的实验。

ABSTRACT

Graph Neural Networks (GNNs) have achieved a lot of success on graph-structured data. However, it is observed that the performance of graph neural networks does not improve as the number of layers increases. This effect, known as over-smoothing, has been analyzed mostly in linear cases. In this paper, we build upon previous results \cite{oono2019graph} to further analyze the over-smoothing effect in the general graph neural network architecture. We show when the weight matrix satisfies the conditions determined by the spectrum of augmented normalized Laplacian, the Dirichlet energy of embeddings will converge to zero, resulting in the loss of discriminative power. Using Dirichlet energy to measure "expressiveness" of embedding is conceptually clean; it leads to simpler proofs than \cite{oono2019graph} and can handle more non-linearities.

研究动机与目标

  • 激发对深层 GNN 中过平滑现象的研究及其对判别能力的影响。
  • 将先前线性分析推广到具有通用激活函数的非线性 GNN。
  • 提供基于 Dirichlet 能量的框架来分析深度 GNN,并在特定条件下展示能量呈指数衰减。
  • 展示该方法对 Leaky ReLU 和变化嵌入维度的适用性。

提出的方法

  • 将每个 GCN 层表示为 f_l(X) = ML P_l (P X) 与增强的归一化拉普拉斯算子.
  • 在各层之间跟踪 Dirichlet 能量 E(X) = tr(X^T \\tilde{Δ} X) 以分析表达能力。
  • 证明 E(PX) ≤ (1−λ)^2 E(X),其中 λ 是增强型拉普拉斯算子的最小非零特征值。
  • 给出 E(XW) ≤ ||W^T||_2^2 E(X) 来界定线性映射在层之间的影响。
  • 证明 E(σ(X)) ≤ E(X) 对于 Lipschitz 常数 ≤ 1 的激活函数,包括 ReLU 和 Leaky ReLU,从而实现对非线性在 ReLU 之外的处理。
  • 推导出一个主要结果 E(f_l(X)) ≤ s_l ¯λ E(X) 以及推论 E(X^(l)) ≤ O((s ¯λ)^l),指示指数能量衰减。

实验结果

研究问题

  • RQ1过平滑是否会在具有非线性激活的深度 GNN 中导致 Dirichlet 能量指数衰减?
  • RQ2Dirichlet 能量是否能为非线性 GNN 的嵌入表达能力提供一个干净、可推广的一般度量(超越 ReLU)?
  • RQ3边操作和变化嵌入维度如何影响 Dirichlet 能量以及因此的过平滑?
  • RQ4Leaky ReLU 等非线性在基于 Dirichlet 能量 的分析中是否可处理?

主要发现

  • Dirichlet 能量在某些权重和谱条件下随层数呈指数下降,导致判别能力下降。
  • 基于 Dirichlet 能量 的方法扩展到 Leaky ReLU,并能处理变化的嵌入维度,这与某些先前工作不同。
  • 对于正则图,这一分析适用于除 ReLU 以外的常见非线性,并提供一个 Elementary 的线性代数证明框架。
  • 在各种图上的实证结果显示,丢弃边通常会增加 Dirichlet 能量,而将少数边的权重提高到非常高的值也会产生类似于边缘丢弃的效果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。