[论文解读] Embedding Logical Queries on Knowledge Graphs
本文提出 Graph Query Embedding (GQE),一个嵌入式框架,通过在低维空间学习几何投影和交集来回答不完整知识图的合取逻辑查询,从而实现高效查询评估。
Learning low-dimensional embeddings of knowledge graphs is a powerful approach used to predict unobserved or missing edges between entities. However, an open challenge in this area is developing techniques that can go beyond simple edge prediction and handle more complex logical queries, which might involve multiple unobserved edges, entities, and variables. For instance, given an incomplete biological knowledge graph, we might want to predict "em what drugs are likely to target proteins involved with both diseases X and Y?" -- a query that requires reasoning about all possible proteins that {\em might} interact with diseases X and Y. Here we introduce a framework to efficiently make predictions about conjunctive logical queries -- a flexible but tractable subset of first-order logic -- on incomplete knowledge graphs. In our approach, we embed graph nodes in a low-dimensional space and represent logical operators as learned geometric operations (e.g., translation, rotation) in this embedding space. By performing logical operations within a low-dimensional embedding space, our approach achieves a time complexity that is linear in the number of query variables, compared to the exponential complexity required by a naive enumeration-based approach. We demonstrate the utility of this framework in two application studies on real-world datasets with millions of relations: predicting logical relationships in a network of drug-gene-disease interactions and in a graph-based representation of social interactions derived from a popular web forum.
研究动机与目标
- 激励在不完整的 KG 上超越单边预测来回答复杂的合取查询。
- 开发一个可扩展的基于嵌入的框架,将合取查询映射到低维嵌入。
- 证明几何运算可以近似查询的表示集并支持高效推断。
- 在大型真实世界数据集上进行评估(生物医学药物–基因–疾病网络与 Reddit 互动)。
- 表明在复杂查询上的训练相比仅对边的训练能提升性能。
提出的方法
- 在 d 维空间中对图节点进行嵌入,使用可训练的节点嵌入。
- 用几何投影算子 P 表示逻辑边,将 q 映射为 P(q, tau) = R_tau q。
- 引入几何交集算子 I,将多个查询嵌入聚合为一个交集嵌入。
- 使用算法 1 通过 P 与 I 在锚点节点和变量之间的有向无环图结构传播来计算查询嵌入。
- 通过余弦相似度 score(q, z_v) 对查询 q 给节点 v 评分。
- 使用正例与负例通过最大边距损失训练 P、I 和节点嵌入;对交集查询采用困难负例。
- 在嵌入空间通过最近邻搜索(如局部敏感哈希)实现高效推断。
实验结果
研究问题
- RQ1是否可以通过嵌入高效地回答不完整知识图上的合取图查询?
- RQ2一小组学习到的几何算子是否能够真实地表示存在量化的查询含义?
- RQ3在复杂查询上,GQE 相较于基于枚举的边预测基线表现如何?
- RQ4在复杂查询上的训练是否能够超越边级训练带来下游性能提升?
- RQ5GQE 在百万边规模真实数据集上的可扩展性如何?
主要发现
- GQE 在 Bio 和 Reddit 数据集上实现了强预测性能,Bilinear GQE 表现最佳(Bio AUC 91.0;Reddit AUC 76.4)。
- 在受限的无边界变量设置中,GQE 优于枚举基线。
- 在复杂查询上的训练相对于仅边训练显著提升 AUC(各数据集平均约 13%,p<0.001)。
- 查询嵌入使得在查询边数上的复杂度达到线性时间,并通过最近邻搜索实现子线性推断。
- 该框架支持使用 DistMult 和 TransE 投影的变体,Bilinear 在所测试的配置中通常获得最佳结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。