QUICK REVIEW

[论文解读] Revisiting Over-smoothing in Deep GCNs

Chaoqi Yang, Ruijie Wang|arXiv (Cornell University)|Mar 30, 2020

Advanced Graph Neural Networks参考文献 41被引用 56

一句话总结

本文将深度 GCN 重新解释为在图正则化的 MLP 传播与有监督训练之间交替进行，显示深度 GCN 在训练过程中可以防止过度平滑，并引入一种便宜的均值减法技巧以加速训练。

ABSTRACT

Oversmoothing has been assumed to be the major cause of performance drop in deep graph convolutional networks (GCNs). In this paper, we propose a new view that deep GCNs can actually learn to anti-oversmooth during training. This work interprets a standard GCN architecture as layerwise integration of a Multi-layer Perceptron (MLP) and graph regularization. We analyze and conclude that before training, the final representation of a deep GCN does over-smooth, however, it learns anti-oversmoothing during training. Based on the conclusion, the paper further designs a cheap but effective trick to improve GCN training. We verify our conclusions and evaluate the trick on three citation networks and further provide insights on neighborhood aggregation in GCNs.

研究动机与目标

阐明深度 GCN 中过平滑的作用，并区分学习前后的训练动态。
提出将 GCN 视为一个两步优化的理论观点，将图正则化与有监督训练结合起来。
确定可行的技术以加速和稳定深度 GCN 的训练。
提供关于邻域聚合以及初始化对深度 GCN 影响的实证见解。

提出的方法

将 GCN 重构为两步过程：步骤1 通过层级传播最小化图正则化项，将 Lreg 融入前向路径；步骤2 通过最小化经验损失 L0 来训练网络。
证明在训练之前，深度 GCN 的前向传播通过最小化 Lreg 导致过平滑；在训练期间，对 Wl 的优化减轻了过平滑（反过平滑）以拟合 L0。
推导出每层的均值减法近似费德勒向量，提供一个粗略的图划分以加速训练。
分析聚合权重 η 的作用及其与 η-GCN 实验中邻居信息加权的关系。
将均值减法与 PairNorm 和 BatchNorm 进行比较，突出在没有额外参数的情况下的速度与稳定性优势。

实验结果

研究问题

RQ1过平滑是否本质上驱动深度 GCN 的性能下降，还是训练动态可以抵消过平滑？
RQ2一个简单的技巧（均值减法）是否可以在不增加模型复杂度的情况下加速并稳定深度 GCN 的训练？
RQ3邻域聚合权重如何影响浅层和深层 GCN 的性能？
RQ4两步优化视角（图正则化 + 有监督训练）与观测到的训练动态之间的关系是什么？

主要发现

深度 GCN 在训练前出现初始过平滑，但在训练过程中学习到反过平滑，且提出过拟合是极深模型性能下降的主要因素。
每层的均值减法显著加快训练并带来稳健的改进，与更快的收敛和有竞争力的测试准确率相一致。
均值减法技巧近似费德勒向量并提供粗略的图划分，有助于各数据集的训练效率。
在两层 GCN 中，增加邻域聚合权重可在一定程度上提升测试准确率，达到某个点后收益趋于饱和；在32层 GCN 中，较大的权重可以保持较高的训练准确率，尽管测试准确率波动更大，凸显深度相关的动态。
SGC（线性 GCN）在深度增大时会出现过平滑，而经过训练的 GCN 通过优化权重和非线性函数可以避免这一点，支持反过平滑的观点。
均值减法在测试准确率上优于 PairNorm，具有更快的训练时间和更小的方差。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。