QUICK REVIEW

[论文解读] Don't Walk, Skip! Online Learning of Multi-scale Network Embeddings

Bryan Perozzi, Vivek Kulkarni|arXiv (Cornell University)|May 6, 2016

Complex Network Analysis Techniques被引用 38

一句话总结

WALKLETS 是一种在线算法，通过采样‘跳过’随机游走来生成可通过固定长度路径到达的顶点对，从而学习多尺度网络嵌入。在多标签分类任务中，其在 Micro-F1 上比 DeepWalk 提升最多 10%，比 LINE 提升 58%，同时在包含数百万个节点的大规模图上表现出高效的可扩展性。

ABSTRACT

We present Walklets, a novel approach for learning multiscale representations of vertices in a network. In contrast to previous works, these representations explicitly encode multiscale vertex relationships in a way that is analytically derivable. Walklets generates these multiscale relationships by subsampling short random walks on the vertices of a graph. By `skipping' over steps in each random walk, our method generates a corpus of vertex pairs which are reachable via paths of a fixed length. This corpus can then be used to learn a series of latent representations, each of which captures successively higher order relationships from the adjacency matrix. We demonstrate the efficacy of Walklets's latent representations on several multi-label network classification tasks for social networks such as BlogCatalog, DBLP, Flickr, and YouTube. Our results show that Walklets outperforms new methods based on neural matrix factorization. Specifically, we outperform DeepWalk by up to 10% and LINE by 58% Micro-F1 on challenging multi-label classification tasks. Finally, Walklets is an online algorithm, and can easily scale to graphs with millions of vertices and edges.

研究动机与目标

解决现有网络表示学习方法使用单一、'一刀切'表示方式的局限性，这些方法无法捕捉社交网络中的分层、多尺度社区结构。
开发一种显式建模并保留图中顶点关系多尺度特性的方法，以支持更细致且准确的预测建模。
设计一种可扩展的在线算法，能够在不显式生成稠密矩阵的情况下，学习高质量且具有理论基础的多尺度表示。
证明多尺度表示可提升真实世界多标签网络分类任务的性能。

提出的方法

WALKLETS 通过采样带有‘跳过’的随机游走生成顶点对语料——即在游走路径上以固定间隔选择顶点，从而编码特定路径长度下的关系。
该方法使用在线学习训练 word2vec 风格的跳字模型，对采样的顶点对进行学习，以捕捉高阶结构关系。
每个学习到的嵌入维度对应一种特定的连通性尺度，较短的跳过距离捕捉局部、细粒度的关系，而较长的跳过距离则捕捉更广泛、更粗粒度的结构。
该方法通过采样隐式分解高阶转移矩阵（A^k），避免了如 GraRep 中显式计算和存储稠密矩阵的计算不可行性。
该算法设计为在线且增量式，支持对包含数百万个顶点和边的图进行高效扩展。
该方法基于矩阵分解理论，其中每个尺度对应于邻接矩阵的 k 次幂的独立分解。

实验结果

研究问题

RQ1我们能否学习到一种显式编码顶点关系多尺度特性的网络嵌入，使其具有可分析推导性和可解释性？
RQ2与单尺度表示相比，建模多尺度关系在多标签网络分类任务中的性能提升程度如何？
RQ3我们能否在不显式生成稠密矩阵的情况下实现高质量的多尺度嵌入，从而支持对大规模真实世界图的可扩展性？
RQ4基于采样的方法在多大程度上近似于 GraRep 等方法所使用的精确转移矩阵？
RQ5所得到的嵌入是否可被有意义地可视化和解释，以揭示分层社区结构？

主要发现

在多个真实世界网络的挑战性多标签分类任务中，WALKLETS 在 Micro-F1 上比 DeepWalk 最多提升 10%。
在相同的多标签分类基准上，WALKLETS 相较于 LINE 实现了 58% 的 Micro-F1 提升。
该方法实现了较低的近似误差——在 DBLP 上的平均误差为 9.3×10⁻⁵，在 BlogCatalog 上为 1.4×10⁻⁵，表明采样能有效近似精确的转移矩阵。
WALKLETS 能够良好地扩展至大规模图，其在线学习机制支持对包含数百万个顶点和边的网络进行高效处理。
所学习的嵌入保留了多尺度结构，支持对分层关系（如细粒度团和更广泛的社区簇）进行有意义的可视化。
该方法提供了具有理论基础的表示，其中每个维度对应一种独立的连通性尺度，增强了可解释性与模型洞察力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。