Skip to main content
QUICK REVIEW

[论文解读] node2vec: Scalable Feature Learning for Networks

Aditya Grover, Jure Leskovec|PubMed|Jul 3, 2016
Advanced Graph Neural Networks参考文献 32被引用 229
一句话总结

node2vec 通过执行偏向的随机游走,在 BFS 与 DFS 之间插值,学习连续的节点嵌入,从而实现可扩展、与任务无关的网络表示学习,并提升多标签分类和链接预测的性能。

ABSTRACT

Prediction tasks over nodes and edges in networks require careful effort in engineering features used by learning algorithms. Recent research in the broader field of representation learning has led to significant progress in automating prediction by learning the features themselves. However, present feature learning approaches are not expressive enough to capture the diversity of connectivity patterns observed in networks. Here we propose <i>node2vec</i>, an algorithmic framework for learning continuous feature representations for nodes in networks. In <i>node2vec</i>, we learn a mapping of nodes to a low-dimensional space of features that maximizes the likelihood of preserving network neighborhoods of nodes. We define a flexible notion of a node's network neighborhood and design a biased random walk procedure, which efficiently explores diverse neighborhoods. Our algorithm generalizes prior work which is based on rigid notions of network neighborhoods, and we argue that the added flexibility in exploring neighborhoods is the key to learning richer representations. We demonstrate the efficacy of <i>node2vec</i> over existing state-of-the-art techniques on multi-label classification and link prediction in several real-world networks from diverse domains. Taken together, our work represents a new way for efficiently learning state-of-the-art task-independent representations in complex networks.

研究动机与目标

  • 自动学习对下游预测任务有信息量的节点表示,以支持网络上的预测任务。
  • 提供一个灵活的邻域采样机制,既能捕捉社区结构,也能捕捉结构等价。
  • 开发一个可扩展的无监督目标,通过随机梯度下降保留网络邻域。
  • 通过组合算子将节点表示扩展为边表示,以用于链接预测任务。

提出的方法

  • 在给定节点嵌入的前提下,最大化观测到该节点网络邻域的似然。
  • 使用带有 p、q 参数的二阶偏向随机游走来采样多样化的邻域。
  • 通过随机梯度上升和负采样进行优化,以避免昂贵的分区函数计算。
  • 通过对节点嵌入应用二元算子,将节点嵌入扩展为边表示。
  • 提供一个通用框架,将 BFS 风格和 DFS 风格的采样作为特例包含在内。

实验结果

研究问题

  • RQ1如何学习保留多样化网络邻域的低维节点表示?
  • RQ2带偏置的二阶随机游走是否能在同质性和结构等价之间插值,从而产生更丰富的嵌入?
  • RQ3与最先进方法相比,node2vec 学得的节点嵌入是否提升了多标签分类和链接预测等预测任务?
  • RQ4节点表示是否可以扩展为用于链接预测任务的有效边表示?

主要发现

算法BlogCatalogPPIWikipedia
Spectral Clustering0.04050.06810.0395
DeepWalk0.21100.17680.1274
LINE0.07840.14470.1164
node2vec0.25810.17910.1552
node2vec settings (p,q)0.25, 0.254, 14, 0.5
Gain of node2vec [%]22.31.321.8
  • node2vec 在多个真实网络上的多标签分类和链接预测方面优于最先进的方法,在分类上提升高达 26.7%,在链接预测上提升高达 12.6%。
  • 通过调整游走策略,该框架能够同时建模网络社区(同质性)和结构角色(结构等价)。
  • 随机游走提供可扩展且高效的邻域采样,样本可在节点之间复用,便于处理大规模网络。
  • 边表示可以通过将节点嵌入与简单二元算子组合来构造,从而实现基于边的预测。
  • 在标注数据有限的情况下,该方法仍展现出有竞争力的性能,对噪声或缺失边具有鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。