[论文解读] Improving Graph Attention Networks with Large Margin-based Constraints
本文提出约束图注意力网络(C-GAT),通过在注意力权重上引入基于边距的约束,改进图注意力网络(GAT),以减少过拟合和过度平滑。通过强制对邻居节点赋予更高的注意力权重而非非邻居节点,并采用top-k邻居聚合,C-GAT在节点分类任务中达到最先进性能,包括在归纳设置的PPI数据集上达到98.8%的准确率。
Graph Attention Networks (GATs) are the state-of-the-art neural architecture for representation learning with graphs. GATs learn attention functions that assign weights to nodes so that different nodes have different influences in the feature aggregation steps. In practice, however, induced attention functions are prone to over-fitting due to the increasing number of parameters and the lack of direct supervision on attention weights. GATs also suffer from over-smoothing at the decision boundary of nodes. Here we propose a framework to address their weaknesses via margin-based constraints on attention during training. We first theoretically demonstrate the over-smoothing behavior of GATs and then develop an approach using constraint on the attention weights according to the class boundary and feature aggregation pattern. Furthermore, to alleviate the over-fitting problem, we propose additional constraints on the graph structure. Extensive experiments and ablation studies on common benchmark datasets demonstrate the effectiveness of our method, which leads to significant improvements over the previous state-of-the-art graph attention methods on all datasets.
研究动机与目标
- 解决GAT中因注意力权重缺乏监督而导致的过拟合问题,以及模型复杂度增加的问题。
- 缓解深层GAT中的过度平滑问题,特别是在类边界处,即不同类别节点被过度平滑的问题。
- 通过结构和标签感知约束,提升注意力函数在未见图结构上的泛化能力。
- 通过逐层自适应负采样策略,开发一种高效的训练方法,以增强模型优化。
- 提出一种基于top-k注意力的特征聚合函数,以减少不同类别之间噪声信息的传播。
提出的方法
- 引入基于边距的约束,通过预设的边距强制邻居节点的注意力权重高于非邻居节点。
- 制定类边界约束,引导注意力函数为连接不同类别节点的边分配较低的权重。
- 设计基于top-k邻居的特征聚合函数,仅使用最具有注意力的邻居,以减少决策边界处的过度平滑。
- 实施逐层自适应负采样策略,根据节点重要性优先选择有信息量的负样本节点,提升训练效率。
- 将约束整合到GAT的训练目标中作为正则化项,稳定学习过程,且不改变模型架构。
- 采用可微优化框架,联合训练GAT模型与注意力约束及top-k聚合函数。
实验结果
研究问题
- RQ1基于边距的注意力权重约束在未见图结构上的GAT泛化性能方面有何影响?
- RQ2在深层GAT中,top-k邻居聚合在多大程度上可减少类边界处的过度平滑?
- RQ3与均匀负采样相比,自适应负采样在约束GAT中是否能提升训练效率和性能?
- RQ4在随机添加边等结构扰动下,所提方法的性能表现如何?
- RQ5在噪声或更深图设置下,top-k聚合函数中的最优k值是多少?
主要发现
- C-GAT在归纳设置的PPI数据集上实现了98.8%的新最先进准确率,显著优于以往基于GAT的模型。
- 在Cora、Citeseer和PubMed数据集上,C-GAT在所有深度架构中均持续优于标准GAT,尤其在模型深度增加导致GAT出现过度平滑时表现更优。
- 即使在测试图中随机添加50%的边,C-GAT仍保持高性能,表明其对结构扰动具有强鲁棒性。
- 采用自适应负采样的模型优于均匀负采样基线,证实了基于重要性感知采样的有效性。
- top-k聚合的最优k值随图噪声程度变化:在噪声图中k=4表现最佳,而在干净图中k=8为最优。
- 与标准GAT不同,更深的C-GAT模型在深度增加时性能并未下降,表明其有效缓解了过度平滑问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。