[论文解读] Understanding Negative Sampling in Graph Representation Learning
本文从理论上分析了图表示学习中的负采样,表明最优负采样分布应与正采样分布呈次线性相关(即 $p_n(u|v) \propto p_d(u|v)^\alpha$,其中 $0 < \alpha < 1$)。本文提出了MCNS,一种利用自对比近似和Metropolis-Hastings采样实现可扩展的负采样方法,在五个具有不同GNN和网络嵌入模型的图数据集上,显著提升了链接预测、节点分类和推荐任务的性能。
Graph representation learning has been extensively studied in recent years. Despite its potential in generating continuous embeddings for various networks, both the effectiveness and efficiency to infer high-quality representations toward large corpus of nodes are still challenging. Sampling is a critical point to achieve the performance goals. Prior arts usually focus on sampling positive node pairs, while the strategy for negative sampling is left insufficiently explored. To bridge the gap, we systematically analyze the role of negative sampling from the perspectives of both objective and risk, theoretically demonstrating that negative sampling is as important as positive sampling in determining the optimization objective and the resulted variance. To the best of our knowledge, we are the first to derive the theory and quantify that the negative sampling distribution should be positively but sub-linearly correlated to their positive sampling distribution. With the guidance of the theory, we propose MCNS, approximating the positive distribution with self-contrast approximation and accelerating negative sampling by Metropolis-Hastings. We evaluate our method on 5 datasets that cover extensive downstream graph learning tasks, including link prediction, node classification and personalized recommendation, on a total of 19 experimental settings. These relatively comprehensive experimental results demonstrate its robustness and superiorities.
研究动机与目标
- 从优化目标和风险两个角度,系统地分析负采样在图表示学习中的作用。
- 确定负采样在何种理论条件下可最小化方差并优化学习目标。
- 推导出一种与正采样分布呈次线性相关的合理负采样分布。
- 开发一种可扩展且高效的负采样策略,利用理论洞见提升下游任务性能。
- 通过实证验证所提方法在多样化图学习任务和架构中的优越性。
提出的方法
- 理论分析表明,负采样在塑造优化目标和最小化估计方差方面与正采样同等关键。
- 本文推导出最优负采样分布为 $p_n(u|v) \propto p_d(u|v)^\alpha$,其中 $0 < \alpha < 1$,$p_d(u|v)$ 为正采样分布。
- MCNS利用当前节点嵌入的自对比信息近似理想正采样分布,以指导负采样。
- 采用Metropolis-Hastings算法加速采样,利用局部图结构跳过预热阶段,保持高效性。
- 该方法利用相邻节点的马尔可夫性质,确保快速混合和高质量负样本,且不会导致性能下降。
- 该方法兼容GNN和传统网络嵌入模型,具备广泛适用性。
实验结果
研究问题
- RQ1负采样对图表示学习中优化目标和估计方差的理论影响是什么?
- RQ2为最小化风险并提升性能,负采样分布应如何相对于正采样分布进行设计?
- RQ3一种基于理论的负采样策略是否能优于如基于度数的启发式默认采样方法,在多样化下游任务中表现更优?
- RQ4所提方法在不同图学习模型和数据集上能将性能提升多少?
- RQ5负采样不匹配(如采样距离较远的节点)如何影响模型性能?是否可进行定量解释?
主要发现
- 最优负采样分布与正采样分布呈次线性相关,这与“应采样远距离节点”的常见直觉相矛盾。
- MCNS在五个真实世界数据集的19组实验设置中,显著优于八种现有负采样策略。
- 随着负采样数量 $k$ 增加,性能在一定范围内提升,但超过该点后,更高 $k$ 带来的偏差会降低性能,验证了理论上的风险权衡。
- 对低 $p_d(u)$ 的远距离节点进行采样会导致性能下降,证实了负采样分布不匹配会损害学习效果的理论结论。
- inverseDNS策略(从低概率项目中采样)在候选集大小 $M$ 增大时,MRR和Hits@k持续下降,实证验证了理论预测。
- MCNS在多种模型(如GraphSAGE、GCN)和任务(链接预测、节点分类、推荐)中均保持高性能,展现出强大鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。