[论文解读] Graph Neural Networks Do Not Always Oversmooth
该论文表明,当图卷积网络(GCNs)使用足够大的权重方差进行初始化时,其本身并不会出现过度平滑现象,通过其在无限宽度极限下的高斯过程(GP)等价性,识别出一个非过度平滑阶段。通过将信息传播深度的概念从前馈网络推广至GCNs,作者证明了深层GCNs能够保留有信息量的节点特征,并在Cora数据集上实现超过100层的最先进性能,验证了对有限尺寸模型的理论预测。
Graph neural networks (GNNs) have emerged as powerful tools for processing relational data in applications. However, GNNs suffer from the problem of oversmoothing, the property that the features of all nodes exponentially converge to the same vector over layers, prohibiting the design of deep GNNs. In this work we study oversmoothing in graph convolutional networks (GCNs) by using their Gaussian process (GP) equivalence in the limit of infinitely many hidden features. By generalizing methods from conventional deep neural networks (DNNs), we can describe the distribution of features at the output layer of deep GCNs in terms of a GP: as expected, we find that typical parameter choices from the literature lead to oversmoothing. The theory, however, allows us to identify a new, non-oversmoothing phase: if the initial weights of the network have sufficiently large variance, GCNs do not oversmooth, and node features remain informative even at large depth. We demonstrate the validity of this prediction in finite-size GCNs by training a linear classifier on their output. Moreover, using the linearization of the GCN GP, we generalize the concept of propagation depth of information from DNNs to GCNs. This propagation depth diverges at the transition between the oversmoothing and non-oversmoothing phase. We test the predictions of our approach and find good agreement with finite-size GCNs. Initializing GCNs near the transition to the non-oversmoothing phase, we obtain networks which are both deep and expressive.
研究动机与目标
- 探究在特定初始化条件下,GCNs中的过度平滑是否不可避免或可避免。
- 利用高斯过程等价性,将全连接深度神经网络中的信息传播深度概念推广至GCNs。
- 在GCNs中识别出一个非过度平滑阶段,即在极端深度下节点特征仍保持有信息量。
- 通过合成数据和真实世界图基准数据,验证理论预测在有限尺寸GCNs上的适用性。
- 证明在接近非过度平滑相变点进行初始化的GCNs,可在超过100层的深度下实现高性能。
提出的方法
- 利用GCNs在无限宽度极限下的高斯过程(GP)等价性,建模各层中节点特征的分布。
- 线性化GCN GP的动力学,推导出描述节点对之间特征距离演化过程的方程组。
- 基于线性化动力学的特征值进行稳定性分析,以识别过度平滑与非过度平滑阶段之间的相变。
- 将广义传播深度定义为超过1的最大特征值的倒数,该值在相变点发散。
- 通过数值方法评估平衡状态下的特征距离,以确定非过度平滑开始的临界权重方差σ²_w,crit。
- 使用上下文随机块模型和Cora引文网络,在有限尺寸GCNs上测试理论预测。
实验结果
研究问题
- RQ1即使在没有残差连接或归一化的情况下,是否可以通过精心设计的初始化避免GCNs中的过度平滑?
- RQ2GCNs中的信息传播深度是否在类似全连接DNNs中的临界点发生发散?
- RQ3GCNs中是否存在一个非过度平滑阶段,使得节点特征在无限深度下仍保持清晰且有信息量?
- RQ4理论预测的相变是否可在具有真实世界图结构的有限尺寸GCNs中得到验证?
- RQ5转移算子的选择如何影响非过度平滑阶段的出现?
主要发现
- 使用足够大的权重方差初始化的GCNs会进入一个非过度平滑阶段,此时在无限深度下,特征距离收敛至一个有限且非零的值。
- 在Cora数据集中,临界权重方差σ²_w,crit ≈ 1被识别出来,标志着从过度平滑到非过度平滑的相变点。
- 在相变点附近训练的GCN GP模型在Cora数据集上实现了超过100层的性能,准确率随层数增加至L = 100而持续提升,与原始GCN工作的表现相当。
- 在非过度平滑区域内,泛化误差随深度增加而减小,甚至在超过100层后仍持续改善。
- 在相变点处,传播深度发散,表明GCNs中存在任意深度的信息传播潜力。
- 理论框架预测,平衡状态下的特征距离能反映底层图结构,即使在深层网络中也是如此。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。