[论文解读] Complex Logical Reasoning over Knowledge Graphs using Large Language Models
LARK 通过对知识图的查询进行抽象、检索子图,并将复杂查询拆分为单次操作的提示,以便顺序的 LLM 推理,将逻辑推理与大语言模型相结合,在标准 KG 基准上取得最新的最优结果。
Reasoning over knowledge graphs (KGs) is a challenging task that requires a deep understanding of the complex relationships between entities and the underlying logic of their relations. Current approaches rely on learning geometries to embed entities in vector space for logical query operations, but they suffer from subpar performance on complex queries and dataset-specific representations. In this paper, we propose a novel decoupled approach, Language-guided Abstract Reasoning over Knowledge graphs (LARK), that formulates complex KG reasoning as a combination of contextual KG search and logical query reasoning, to leverage the strengths of graph extraction algorithms and large language models (LLM), respectively. Our experiments demonstrate that the proposed approach outperforms state-of-the-art KG reasoning methods on standard benchmark datasets across several logical query constructs, with significant performance gain for queries of higher complexity. Furthermore, we show that the performance of our approach improves proportionally to the increase in size of the underlying LLM, enabling the integration of the latest advancements in LLMs for logical reasoning over KGs. Our work presents a new direction for addressing the challenges of complex KG reasoning and paves the way for future research in this area.
研究动机与目标
- 在传统嵌入方法之外,推动对庞大、嘈杂、信息不完整的知识图的鲁棒推理。
- 通过使用抽象和子图上下文,将 KG 推理与 LLM 推理解耦,从而利用 LLM 在简单提示上的优势。
- 通过链式分解和逻辑排序提示,提升对复杂一阶逻辑查询(p、∧、∨、¬)的性能。
- 在更大规模的 LLM 上验证可扩展性,并分析查询抽象对泛化和减少幻觉的影响。
提出的方法
- 将实体和关系抽象为唯一 ID,以形成与 KG 无关的提示并降低令牌负载。
- 进行 k 级邻域检索,围绕查询实体/关系构建上下文子图。
- 将复杂的多操作查询分解为单操作查询序列(例如 3p → 1p 链;3i/2i 及投影)。
- 将分解后的查询和邻域上下文转换为带有依赖答案占位符的 LLM 提示,以及对先前结果的内存缓存。
- 在逻辑有序的阶段处理分解后的提示,便于批处理和中间结果的重用,同时将幻觉降到最小。
- 在 FB15k、FB15k-237 和 NELL995 上对比基线(GQE、Q2B、BetaE、HQE、HypE、CQD),对 LARK 进行经验验证。

实验结果
研究问题
- RQ1LARK 是否在标准 KG 逻辑推理基准上超越现有最先进的基线?
- RQ2链式分解提示是否比对 LLM 的复杂提示在 KG 推理中更有效?
- RQ3随着更大规模的 LLM 和令牌容量的提升,LARK 的性能如何变化?
- RQ4查询抽象对跨数据集的性能和泛化有何影响?
- RQ5与以往方法相比,LARK 在处理否定和复杂查询类型方面是否更有效?
主要发现
- LARK 在 14 种 FOL 查询类型的多个数据集上,MRR 比先前的最先进基线高出 33%–64%。
- 链式分解在复杂查询上带来 9%–26% 的提升,凸显将推理拆解给 LLM 的好处。
- 增大 LLM 的规模(从 Flan-T5 L 到 XXL)带来显著的增益(在 FB15k-237 上的 MRR 提升高达 118%)。
- 查询抽象降低令牌负载和幻觉风险,性能损失微小;具语义丰富的变体在复杂查询上可能略微降低性能,原因是令牌限制。
- LARK 对否定处理显示出较强的能力,在否定查询上常常优于基线,但某些查询类型对令牌长度存在约束的警告。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。