[论文解读] Stochastic Training of Graph Convolutional Networks with Variance Reduction
该论文提出预处理和控制变量技术,以实现对带邻居采样的GCN的快速、无偏随机训练,在更快收敛的同时实现与GCN相同的性能。
Graph convolutional networks (GCNs) are powerful deep neural networks for graph-structured data. However, GCN computes the representation of a node recursively from its neighbors, making the receptive field size grow exponentially with the number of layers. Previous attempts on reducing the receptive field size by subsampling neighbors do not have a convergence guarantee, and their receptive field size per node is still in the order of hundreds. In this paper, we develop control variate based algorithms which allow sampling an arbitrarily small neighbor size. Furthermore, we prove new theoretical guarantee for our algorithms to converge to a local optimum of GCN. Empirical results show that our algorithms enjoy a similar convergence with the exact algorithm using only two neighbors per node. The runtime of our algorithms on a large Reddit dataset is only one seventh of previous neighbor sampling algorithms.
研究动机与目标
- 在图结构数据上使用GCN推动高效的半监督节点分类。
- 通过随机训练应对GCN的高计算成本。
- 引入预处理和控制变量技术,以重新获得快速收敛性和精确的局部最优。
- 为所提出的方法提供理论收敛性保证。
提出的方法
- 引入预处理,在不改变期望输出的前提下将GCN的深度降低一层。
- 应用邻居采样来近似邻域聚合并分析其局限性。
- 提出一种使用历史激活来创建无偏梯度估计的控制变量(CV)方法。
- 开发一种方差降减方案(CVD),同时考虑 dropout 并维持平均激活。
- 提供理论保证:CV 能产生精确的预测和无偏梯度,在标准假设下收敛。
- 比较 Exact、NS、NS+PP、CV+PP、CVD+PP 变体在时间复杂度和收敛行为上的差异。
实验结果
研究问题
- RQ1是否可以通过预处理减少GCN的深度而不牺牲辨别性能?
- RQ2邻居采样是否会降低性能,方差降低是否能恢复精确的GCN行为?
- RQ3控制变量方法是否能产生无偏梯度和与全批量GCN训练相当的精确局部最优?
- RQ4将预处理与方差降低技术结合时,时间复杂度和收敛性有哪些权衡?
- RQ5所提出的方法在 dropout 下是否能保持性能并提供理论收敛性保证?
主要发现
- 预处理加控制变量方法可以达到与精确GCN相同的性能,同时提供更快的每轮时间。
- 控制变量产生无偏梯度,在零 dropout 时收敛到精确的GCN局部最优。
- 方差降低技术缓解邻居采样和 dropout 带来的不稳定性。
- 该方法在标准光滑性假设下,为无偏梯度和收敛性提供理论保证。
- 不同的算法变体在准确性与计算效率之间在基准数据集上显示出有利的权衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。