[论文解读] GraphNorm: A Principled Approach to Accelerating Graph Neural Network Training
GraphNorm 通过在 Graph InstanceNorm 中加入一个可学习的偏移来改进 GNN 训练,缓解规则图上的信息丢失,相较于 BatchNorm、LayerNorm、InstanceNorm 或不进行归一化,能够实现更快的收敛和更好的泛化。
Normalization is known to help the optimization of deep neural networks. Curiously, different architectures require specialized normalization methods. In this paper, we study what normalization is effective for Graph Neural Networks (GNNs). First, we adapt and evaluate the existing methods from other domains to GNNs. Faster convergence is achieved with InstanceNorm compared to BatchNorm and LayerNorm. We provide an explanation by showing that InstanceNorm serves as a preconditioner for GNNs, but such preconditioning effect is weaker with BatchNorm due to the heavy batch noise in graph datasets. Second, we show that the shift operation in InstanceNorm results in an expressiveness degradation of GNNs for highly regular graphs. We address this issue by proposing GraphNorm with a learnable shift. Empirically, GNNs with GraphNorm converge faster compared to GNNs using other normalization. GraphNorm also improves the generalization of GNNs, achieving better performance on graph classification benchmarks.
研究动机与目标
- 激励并理解图神经网络(GNNs)中的归一化需求。
- 在应用于 GNNs 时评估现有的归一化方法(BatchNorm、LayerNorm、InstanceNorm)。
- 识别 InstanceNorm 和 BatchNorm 在图中的局限性。
- 提出 GraphNorm 以在保持预条件化收益的同时克服表达能力退化。
- 证明 GraphNorm 能够加速训练并在基准数据集上改善泛化。
提出的方法
- 通过在线性/聚合步骤之后应用归一化,将 BatchNorm、LayerNorm 和 InstanceNorm 适配到 GNN 中。
- 分析为何 InstanceNorm 的偏移对 GNN 聚合起到预条件化作用,以及为何 BatchNorm 会受到图批量噪声的影响。
- 表明标准的 InstanceNorm 偏移在高度规则的图上会降低表达能力。
- 引入 GraphNorm,其中对每个特征维度设有可学习的偏移参数,以保持图信息。
- 给出理论直觉并在八个图分类基准上进行实证验证。
- 将 GraphNorm 与 BatchNorm、InstanceNorm、LayerNorm 以及无归一化进行比较。
实验结果
研究问题
- RQ1将标准归一化方案(BatchNorm、LayerNorm、InstanceNorm)集成到 GNN 架构中时,它们的表现如何?
- RQ2为何 InstanceNorm 能加速 GNN 训练,以及其偏移为何会在规则图上损害表达能力?
- RQ3图归一化中的可学习偏移是否能够在保留加速收益的同时保留关键的图信息?
- RQ4GraphNorm 是否在不同图数据集和架构(GIN/GCN)上改善收敛速度和泛化能力?
主要发现
- InstanceNorm 通过作为图聚合的预条件化,提升 GNN 训练速度,超过 BatchNorm 或 LayerNorm。
- BatchNorm 在图数据上受到较大批量噪声的影响,使其在 GNN 优化中效果较差。
- 在 InstanceNorm 中的固定偏移通过移除有信息的均值统计,在高度规则的图上会降低表达能力。
- GraphNorm 引入了每个特征维度的可学习偏移,保留了关键的均值信息并改善收敛。
- 在多项图基准上,经验上 GraphNorm 在收敛速度和泛化方面超过其他归一化方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。