[论文解读] Understanding and Resolving Performance Degradation in Graph Convolutional Networks
本文指出,图卷积网络(GCNs)中由于变换操作(TRANs)导致的特征方差放大是深层GCNs性能退化的主要原因,而不仅仅是传播(PROP)操作所致。本文提出NodeNorm,一种简单的归一化技术,通过将每个节点的特征按其自身的标准差进行缩放,有效控制方差膨胀,使深层GCNs在基准数据集上的表现优于浅层模型。
A Graph Convolutional Network (GCN) stacks several layers and in each layer performs a PROPagation operation (PROP) and a TRANsformation operation (TRAN) for learning node representations over graph-structured data. Though powerful, GCNs tend to suffer performance drop when the model gets deep. Previous works focus on PROPs to study and mitigate this issue, but the role of TRANs is barely investigated. In this work, we study performance degradation of GCNs by experimentally examining how stacking only TRANs or PROPs works. We find that TRANs contribute significantly, or even more than PROPs, to declining performance, and moreover that they tend to amplify node-wise feature variance in GCNs, causing variance inflammation that we identify as a key factor for causing performance drop. Motivated by such observations, we propose a variance-controlling technique termed Node Normalization (NodeNorm), which scales each node's features using its own standard deviation. Experimental results validate the effectiveness of NodeNorm on addressing performance degradation of GCNs. Specifically, it enables deep GCNs to outperform shallow ones in cases where deep models are needed, and to achieve comparable results with shallow ones on 6 benchmark datasets. NodeNorm is a generic plug-in and can well generalize to other GNN architectures. Code is publicly available at https://github.com/miafei/NodeNorm.
研究动机与目标
- 探究变换操作(TRANs)在深层GCNs性能退化中被低估的作用。
- 识别深层GCNs性能下降的根本原因,超越过度平滑和梯度消失。
- 开发一种通用的、可即插即用的归一化技术,以缓解节点表示中的方差膨胀。
- 证明控制节点级特征方差比现有归一化方法更有效,适用于深层GCN训练。
提出的方法
- 作者设计消融实验,仅隔离GCN层中的TRANs或仅隔离PROPs,以研究其对性能的独立影响。
- 他们提出NodeNorm,一种归一化方法,通过将每个节点的隐藏特征除以其自身的标准差进行缩放:$\mathrm{NodeNorm}(\mathbf{h}_i) = \frac{\mathbf{h}_i}{\sigma_i}$,其中$\sigma_i$是节点$i$特征的标准差。
- 他们将NodeNorm与LayerNorm及其他变体进行比较,隔离方差缩放组件以验证其有效性。
- 他们在6个基准数据集上进行了大量实验,涵盖低标签率和大直径图等多种条件。
- 他们将LayerNorm分解为其组成部分(均值减去、方差缩放、可学习参数),以隔离关键机制。
- 他们在不同深度下评估性能,表明NodeNorm使更深模型能够超越浅层模型。
实验结果
研究问题
- RQ1尽管深层GCNs具备表示学习能力,为何仍会出现性能退化?
- RQ2与传播操作(PROPs)相比,变换操作(TRANs)在GCNs性能退化中具体贡献为何?
- RQ3训练过程中节点级特征方差的放大是否导致深层GCNs的性能下降?
- RQ4一种仅控制节点特定特征方差的简单归一化技术,能否有效解决深层GCNs中的性能退化问题?
- RQ5与LayerNorm等现有归一化方法相比,NodeNorm在缓解方差膨胀和提升模型深度性能方面表现如何?
主要发现
- TRANs对性能退化的影响比PROPs更显著,挑战了传统认为PROPs导致过度平滑是主要原因的假设。
- TRANs在各层之间放大了节点级特征方差,导致作者称之为“方差膨胀”的现象,该现象与性能下降强相关。
- 在深层架构中,节点级特征方差高的GCNs性能显著劣于方差低的模型。
- NodeNorm通过将每个节点的特征按其自身标准差归一化,使64层GCNs在Cora、Citeseer和Pubmed上超越2层GCNs。
- 在6个基准数据集上,即使在需要更深模型的情况下,NodeNorm的性能仍与浅层GCNs相当或更优。
- 消融实验证实,方差缩放(而非均值减去或可学习参数)是归一化有效性的关键组件,验证了方差控制是核心机制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。