Skip to main content
QUICK REVIEW

[论文解读] Heterogeneous Information Network Embedding for Meta Path based Proximity

Zhipeng Huang, Nikos Mamoulis|arXiv (Cornell University)|Jan 19, 2017
Internet Traffic Analysis and Secure E-voting参考文献 32被引用 98
一句话总结

HINE 学习异质信息网络的低维嵌入,以保留基于元路径的邻近性(PathCount 或 PCRW),在多项任务上优于 LINE 和 DeepWalk。

ABSTRACT

A network embedding is a representation of a large graph in a low-dimensional space, where vertices are modeled as vectors. The objective of a good embedding is to preserve the proximity between vertices in the original graph. This way, typical search and mining methods can be applied in the embedded space with the help of off-the-shelf multidimensional indexing approaches. Existing network embedding techniques focus on homogeneous networks, where all vertices are considered to belong to a single class.

研究动机与目标

  • 推动将 HINs 的嵌入与元路径邻近性所捕获的语义保持一致。
  • 定义一个目标,使经验元路径邻近性与嵌入空间的邻近性之间的距离最小化。
  • 提出可扩展的带负采样的训练方法以加速优化。
  • 在连接恢复、分类、聚类、k-NN 搜索和可视化等任务上证明其有效性。

提出的方法

  • 将基于元路径的邻近性 s(.,.) 定义为到长度为 l 的元路径实例之和(PathCount 或 PCRW 的定义)。
  • 使用动态规划对每一对进行截断邻近性矩阵的计算(算法1)。
  • 通过学习向量 v_i ∈ R^d 来建模 p(o_i,o_j)=1/(1+e^{-v_i · v_j}),并最小化对经验邻近性的 KL 散度。
  • 使用负采样来近似目标函数,并使用 ASGD 进行优化。
  • 将 PCRW 或 PathCount 视为邻近性度量,实验中 PCRW 通常优于 PathCount。

实验结果

研究问题

  • RQ1如何在低维空间中嵌入 HIN,使元路径基于的邻近性得以保持?
  • RQ2将 PCRW 与 PathCount 作为邻近性度量对嵌入质量的影响如何?
  • RQ3负采样和 ASGD 能否在避免退化解的前提下实现可扩展的优化?
  • RQ4在真实 HIN 数据集上,HINE 嵌入在网络恢复、分类、聚类、k-NN 搜索和可视化任务中的表现如何?

主要发现

  • 使用 PCRW 的 HINE 在跨多种边类型和数据集的网络恢复任务中取得最佳性能。
  • HINE_PCRW 在分类和可视化任务中持续优于 HINE_PC 及其他基线(DeepWalk、LINE)。
  • 在数据集(DBLP、MOVIE、YELP、GAME)上,HINE_PCRW 常获得更高的分类 Macro/F1 与 Micro/F1,以及聚类的更高 NMI。
  • 负采样与 ASGD 使优化具备可扩展性,降低了陷入退化解的风险并减少计算。
  • 对于 k-NN 和前 k 列表的质量,HINE_PCRW 产生的前 k 列表比基线更接近原始 HIN,且在 Spearman/Kendall 指标上表现更好。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。