QUICK REVIEW
[论文解读] Learning Graph Neural Networks with Noisy Labels
Hoang Nt, Choong Jun Jin|arXiv (Cornell University)|May 5, 2019
Machine Learning and Data Classification参考文献 6被引用 23
一句话总结
该论文提出了一种去噪图神经网络(D-GNN),通过利用估计的噪声矩阵进行损失校正,提升了图分类任务中对对称标签噪声的鲁棒性。通过将图同构网络(GIN)与GraphSAGE结合,并引入噪声感知的损失校正,该方法在存在噪声的训练条件下,在基准数据集上实现了显著的准确率提升,尤其在校正矩阵估计准确时效果更佳。
ABSTRACT
We study the robustness to symmetric label noise of GNNs training procedures. By combining the nonlinear neural message-passing models (e.g. Graph Isomorphism Networks, GraphSAGE, etc.) with loss correction methods, we present a noise-tolerant approach for the graph classification task. Our experiments show that test accuracy can be improved under the artificial symmetric noisy setting.
研究动机与目标
- 解决在众包数据收集中常见的大规模图数据集存在标签噪声时训练图神经网络(GNN)的挑战。
- 在对称标签噪声(即标签以相等概率被错误地标注为其他类别)条件下,提升GNN的泛化性能。
- 通过将损失校正技术整合到GIN和GraphSAGE等GNN架构中,开发一种对噪声具有容忍能力的训练流程。
- 在真实世界的图分类基准上,评估不同噪声矩阵估计策略——保守估计、基于锚点的估计与精确假设——的有效性。
提出的方法
- 采用基于学习到的校正矩阵 $\mathbf{C}$ 的反向损失校正,定义为 $\ell^{\leftarrow} = \mathbf{C}^{-1} \cdot \ell(\hat{p}(y|\mathcal{G}))$,以减轻标签噪声的影响。
- 使用对称噪声矩阵 $\mathbf{N}$ 来建模标签污染,其中每个标签 $i$ 以相等概率 $n$ 被污染为 $j$($j \neq i$)。
- 通过三种策略估计校正矩阵 $\mathbf{C}$:保守估计(基于模型置信度)、基于锚点的估计(利用干净验证样本)以及精确假设(已知噪声矩阵)。
- 采用基于GIN的消息传递框架,通过多层聚合与组合函数更新节点表示。
- 在实际应用中将校正矩阵 $\mathbf{C}$ 视为超参数,利用干净验证集进行调优,以增强模型鲁棒性。
- 使用校正后的梯度进行交叉熵损失计算,以在反向传播过程中减轻误标样本的影响。
实验结果
研究问题
- RQ1损失校正技术是否能提升图分类任务中GNN在对称标签噪声下的鲁棒性?
- RQ2随着对称标签噪声的增加,GNN的准确率如何下降,校正方法能否缓解这种下降?
- RQ3不同噪声矩阵估计策略——保守估计、基于锚点的估计与精确估计——在提升噪声图数据泛化性能方面的有效性如何?
- RQ4在人工引入对称标签噪声的数据集上,D-GNN框架是否优于标准GNN模型(如GIN和GraphSAGE)?
主要发现
- 采用基于锚点的噪声估计的D-GNN(D-GNN-A)取得了最先进性能,在20%对称标签噪声条件下,9个数据集中有7个优于原始GIN模型。
- 在IMDB-B数据集上,D-GNN-A将测试准确率从GIN的0.6573提升至0.7088,相对提升达7.8%。
- 保守估计方法(D-GNN-C)表现较差,原因在于模型预测过于自信,导致校正矩阵估计错误,泛化性能更差。
- 采用精确噪声矩阵的D-GNN(D-GNN-E)取得了优异结果,表明准确的噪声估计对性能提升至关重要。
- 在PROTEINS数据集上,D-GNN-A达到0.6769的测试准确率,而GIN为0.6257,相对提升8.4%。
- 该方法在MUTAG、COLLAB和NCI1等多样化图数据集上均表现出一致的性能提升,证实其在真实世界生物信息学数据中的泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。