[论文解读] Learning Role-based Graph Embeddings
Role2Vec 通过属性随机游走学习基于类型的嵌入,将图嵌入推广到新节点和新图,显著提高 AUC,同时在空间使用方面远低于传统方法。
Random walks are at the heart of many existing network embedding methods. However, such algorithms have many limitations that arise from the use of random walks, e.g., the features resulting from these methods are unable to transfer to new nodes and graphs as they are tied to vertex identity. In this work, we introduce the Role2Vec framework which uses the flexible notion of attributed random walks, and serves as a basis for generalizing existing methods such as DeepWalk, node2vec, and many others that leverage random walks. Our proposed framework enables these methods to be more widely applicable for both transductive and inductive learning as well as for use on graphs with attributes (if available). This is achieved by learning functions that generalize to new nodes and graphs. We show that our proposed framework is effective with an average AUC improvement of 16.55% while requiring on average 853x less space than existing methods on a variety of graphs.
研究动机与目标
- 激发需要可迁移、归纳的图嵌入,以捕获超越顶点身份的结构角色。
- 介绍 Role2Vec 框架,将节点映射到一个小集合的顶点类型,使用属性/结构特征。
- 开发在顶点类型上进行的带属性的随机游走,以学习跨类型共享的嵌入。
- 展示相对于基于传导、基于标识的嵌入方法的空间效率和可迁移性。
提出的方法
- 通过将节点属性 X 映射到 M 种类型的映射 Phi 来定义顶点类型,其中 M << Nv。
- 引入带属性的游走 Phi(x_vi),引导随机游走生成顶点类型序列,而非顶点 ID。
- 将 P[Phi(x_ci)|Phi(xi)] 模型化为对上下文类型的乘积,使用带类型嵌入的 softmax。
- 用 SGD 学习每个顶点类型的嵌入,在同一类型的节点之间共享参数。
- 为 Phi 提供两种选择:属性的简单拼接或学习的低秩分解以形成类型。
- 给出空间复杂度 O(MD + Nv),并在 M 接近 Nv 时显示收敛到基线方法。
实验结果
研究问题
- RQ1Role2Vec 是否能产生可迁移的嵌入,能够推广到未见过的节点和图?
- RQ2通过带属性的游走结合顶点属性和结构特征,是否提升了相对于传统基于随机游走的方法的预测性能?
- RQ3相对于为单个顶点学习嵌入,为顶点类型学习嵌入在空间效率方面有哪些好处?
- RQ4不同的 Phi 映射(拼接 vs. 因子分解)如何影响嵌入质量?
- RQ5带属性的随机游走是否比仅基于邻近性的方法更能捕捉角色(结构相似性)?
主要发现
| 图 | R2V | R2V-DW | N2V | DW | LINE | S2V |
|---|---|---|---|---|---|---|
| bn--cat | 0.710 | missing | 0.688 | missing | 0.627 | 0.627 |
| bn--rat--brain | 0.748 | 0.731 | 0.716 | 0.716 | 0.672 | 0.669 |
| bn--rat--cerebral | 0.867 | 0.846 | 0.813 | 0.811 | 0.709 | 0.858 |
| ca--CSphd | 0.838 | 0.838 | 0.768 | 0.735 | 0.620 | 0.791 |
| eco--fweb--baydry | 0.681 | 0.656 | 0.655 | 0.627 | 0.660 | 0.623 |
| ia--radoslaw--email | 0.867 | 0.847 | 0.756 | 0.745 | 0.769 | 0.857 |
| soc--anybeat | 0.961 | 0.960 | 0.854 | 0.848 | 0.850 | 0.883 |
| soc--dolphins | 0.656 | 0.597 | 0.580 | 0.498 | 0.551 | 0.590 |
| fb--Yale4 | 0.793 | 0.793 | 0.742 | 0.728 | 0.763 | 0.758 |
| web--EPA | 0.926 | 0.925 | 0.804 | 0.738 | 0.768 | 0.861 |
- Role2Vec 在多种图上实现了平均 AUC 提升 16.55%,且空间使用显著更低(平均少 853 倍)。
- 嵌入是为顶点类型学习的,而不是为单个顶点学习,带来显著的空间效率(O(MD + Nv) vs O(NvD))。
- 使用带属性的游走使 Role2Vec 的泛化能力提升,在跨多个图的链接预测任务上超越 DeepWalk、node2vec 及其他基线。
- Mean operator embedding 与 product operator embedding 分别带来 +11.1% 和 +22% 的平均增益,超过基线。
- 基于拼接和简单基元(2-stars、三角形等)的 Phi 取得了有竞争力的结果;基于分解的 Phi 也具可比性。
- Role2Vec 的变体在性能上接近基线,同时在空间效率方面仍高出数量级。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。