[论文解读] Multi-perspective Improvement of Knowledge Graph Completion with Large Language Models
MPIKGC 通过从实体、关系和结构视角查询大语言模型来增强基于描述的知识图谱补全(KGC),在多数据集和多骨干网络上提升链接预测与三元组分类。
Knowledge graph completion (KGC) is a widely used method to tackle incompleteness in knowledge graphs (KGs) by making predictions for missing links. Description-based KGC leverages pre-trained language models to learn entity and relation representations with their names or descriptions, which shows promising results. However, the performance of description-based KGC is still limited by the quality of text and the incomplete structure, as it lacks sufficient entity descriptions and relies solely on relation names, leading to sub-optimal results. To address this issue, we propose MPIKGC, a general framework to compensate for the deficiency of contextualized knowledge and improve KGC by querying large language models (LLMs) from various perspectives, which involves leveraging the reasoning, explanation, and summarization capabilities of LLMs to expand entity descriptions, understand relations, and extract structures, respectively. We conducted extensive evaluation of the effectiveness and improvement of our framework based on four description-based KGC models and four datasets, for both link prediction and triplet classification tasks.
研究动机与目标
- 通过用 LLMs 来丰富基于描述的 KGC,解决知识图谱中的不完整性。
- 利用 chain-of-thought 提示扩展实体描述。
- 通过全局、局部和反向提示提升关系理解。
- 提取并整合结构信息以增强训练数据。
- 展示在四个基于描述的 KGC 模型和四个数据集上的通用性,涵盖链接预测与三元组分类。
提出的方法
- 使用 Chain-of-Thought 提示生成更丰富的实体描述(MPIKGC-E)。
- 应用全局、局部和反向提示以更好地捕捉关系语义(MPIKGC-R)。
- 通过将实体描述摘要为关键词并创建基于 SameAs 的链接来提取额外的结构线索(MPIKGC-S)。
- 跨视角组合提示,并将增强文本输入编码为 BERT(bert-base-uncased)的基础 KGC 模型。
- 在四个骨干模型(KG-BERT、SimKGC、LMKE、CSProm-KG)上,在 FB15k237、WN18RR(链接预测)以及 FB13、WN11(三元组分类)上进行评估。
- 进行消融和跨 LLM 分析以验证通用性和有效性。
实验结果
研究问题
- RQ1LLMs 是否能提供有意义的辅助文本来提升基于描述的 KGC 模型?
- RQ2实体扩展、关系理解和结构提取是否对 KGC 性能有独立和/或协同的贡献?
- RQ3MPIKGC 是否在不同的 LLM 与 KGC 骨干上具有鲁棒性?
- RQ4增增强策略如何影响正向与反向链接预测以及长尾实体行为?
主要发现
| 模型 | MR↓ | MRR↑ | H@1↑ | H@3↑ | H@10↑ |
|---|---|---|---|---|---|
| TransE | 323 | 27.9 | 19.8 | 37.6 | 44.1 |
| DistMult | 512 | 28.1 | 19.9 | 30.1 | 44.6 |
| ConvE | 245 | 31.2 | 22.5 | 34.1 | 49.7 |
| RotatE | 177 | 33.8 | 24.1 | 37.5 | 53.3 |
| ATTH | - | 34.8 | 25.2 | 38.4 | 54.0 |
| CSProm-KG | 188 | 35.23 | 26.05 | 38.72 | 53.57 |
| +MPIKGC-E | 195 | 35.51 | 26.38 | 38.96 | 53.74 |
| +MPIKGC-R | 192 | 35.38 | 26.29 | 38.83 | 53.50 |
| +MPIKGC-S | 179 | 35.95 | 26.71 | 39.52 | 54.89 |
| LMKE | 135 | 30.31 | 21.49 | 33.02 | 48.07 |
| +MPIKGC-E (LMKE) | 138 | 30.83 | 21.89 | 33.67 | 48.75 |
| +MPIKGC-R (LMKE) | 145 | 30.99 | 22.21 | 33.70 | 48.83 |
| +MPIKGC-S (LMKE) | 135 | 30.68 | 21.67 | 33.35 | 48.91 |
| SimKGC | 146 | 32.66 | 24.13 | 35.42 | 49.65 |
| +MPIKGC-E (SimKGC) | 143 | 33.01 | 24.37 | 35.80 | 50.29 |
| +MPIKGC-R (SimKGC) | 156 | 31.05 | 22.63 | 33.62 | 47.65 |
| +MPIKGC-S (SimKGC) | 143 | 33.22 | 24.49 | 36.26 | 50.94 |
- MPIKGC 增强的模型在跨数据集和任务上持续优于基础的描述式 KGC 模型。
- 结构提取(MPIKGC-S)在 FB15k237 上可实现最高增益,超越一些基于结构的方法。
- 关系理解(MPIKGC-R)在 WN18RR 的 MRR、Hits@1 和 Hits@3 上带来 1%–2% 的增益。
- 实体扩展(MPIKGC-E)提升 Hits@10 及总体指标,结合使用时(E、R、S)具有互补效应。
- 基于 GPT-4 的提示产生显著增益,特别是对关系理解(R)以及使用更大规模的 LLM 时;性能因 LLM 和任务而异。
- 组合 MPIKGC-E&R&S 在若干指标上取得最佳平衡(例如 FB15k237 的 H@3)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。