[论文解读] Meta-Path Guided Embedding for Similarity Search in Large-Scale Heterogeneous Information Networks
ESim 在大规模异质信息网络中学习受用户指定的元路径指导的顶点嵌入,以实现高效的相似性搜索,采用可扩展的基于采样的优化框架。它优于最先进的方法并可扩展到大规模 HIN。
Most real-world data can be modeled as heterogeneous information networks (HINs) consisting of vertices of multiple types and their relationships. Search for similar vertices of the same type in large HINs, such as bibliographic networks and business-review networks, is a fundamental problem with broad applications. Although similarity search in HINs has been studied previously, most existing approaches neither explore rich semantic information embedded in the network structures nor take user's preference as a guidance. In this paper, we re-examine similarity search in HINs and propose a novel embedding-based framework. It models vertices as low-dimensional vectors to explore network structure-embedded similarity. To accommodate user preferences at defining similarity semantics, our proposed framework, ESim, accepts user-defined meta-paths as guidance to learn vertex vectors in a user-preferred embedding space. Moreover, an efficient and parallel sampling-based optimization algorithm has been developed to learn embeddings in large-scale HINs. Extensive experiments on real-world large-scale HINs demonstrate a significant improvement on the effectiveness of ESim over several state-of-the-art algorithms as well as its scalability.
研究动机与目标
- 在异质信息网络(HINs)中提出相似性搜索的动机,并通过用户引导的元路径捕捉丰富的语义。
- 提出一种嵌入式框架,将顶点表示为与元路径语义对齐的低维向量。
- 开发一种可扩展的、基于采样的优化算法,在大规模 HINs 上训练嵌入。
- 使用学习到的嵌入在在线查询中通过余弦相似度实现相似性查询。
- 将 ESim 与最先进的方法进行比较,并在真实世界的 HINs 上展示可扩展性和有效性。
提出的方法
- 引入一种概率嵌入模型,通过最大化沿着用户指定的元路径 M 的路径实例中的共现来保持 HIN 结构。
- 使用评分函数 f(u,v,M) = μ_M + p_M^T x_u + q_M^T x_v + x_u^T x_v 来编码元路径语义,并通过对 f(u,v,M) 的 softmax 计算 Pr(v|u,M)。
- 采用噪声对比估计(NCE)以通过区分观测到的路径实例与噪声样本来高效训练嵌入。
- 探索两种路径定义选项:顺序(seq)和成对(pair),其中成对被发现更有效。
- 进行在线训练,使用随机梯度下降与并行化(Hogwild)以实现可扩展性;对归一化后的嵌入使用余弦相似度进行在线查询。
- 开发基于动态规划的 C(u,i|M) 的预计算,以实现随 M 跟随的路径实例在线常数时间采样。
- 可选地通过对其损失函数加权求和来支持多个元路径的加权组合。
实验结果
研究问题
- RQ1如何将用户引导的元路径结合到嵌入框架中,以在 HINs 中定义语义相似性?
- RQ2基于采样的、以嵌入为驱动的方法是否能在大规模 HINs 上超越现有的基于元路径的相似性度量(如 PathSim)和同质网络嵌入?
- RQ3哪些算法和数据结构能够实现对超大规模 HINs 的可扩展训练和快速在线相似性查询?
- RQ4将元路径引导引入是否会在诸如 DBLP、Yelp 等多样化真实数据集上提升相似性搜索质量?
主要发现
- 提出的 ESim 框架在有效性方面显著优于若干最先进的方法。
- ESim 通过新颖的基于采样的优化和并行训练框架实现对大规模 HINs 的扩展。
- 高效的预计算和在线采样使得在每次迭代中实现路径实例的常数时间采样。
- 在学习到的嵌入上使用余弦相似度,通过近似最近邻搜索支持快速的在线 Top-K 相似查询。
- 在真实世界 HINs(DBLP 和 Yelp)上的实验验证了该方法并展示了可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。