[论文解读] Knowledge Distillation for Temporal Knowledge Graph Reasoning with Large Language Models
本文提出一个蒸馏框架,使用大型语言模型作为教师,将时间推理从时态知识图转移到轻量级学生模型,在基准数据集上用更小的模型实现更好的性能。
Reasoning over temporal knowledge graphs (TKGs) is fundamental to improving the efficiency and reliability of intelligent decision-making systems and has become a key technological foundation for future artificial intelligence applications. Despite recent progress, existing TKG reasoning models typically rely on large parameter sizes and intensive computation, leading to high hardware costs and energy consumption. These constraints hinder their deployment on resource-constrained, low-power, and distributed platforms that require real-time inference. Moreover, most existing model compression and distillation techniques are designed for static knowledge graphs and fail to adequately capture the temporal dependencies inherent in TKGs, often resulting in degraded reasoning performance. To address these challenges, we propose a distillation framework specifically tailored for temporal knowledge graph reasoning. Our approach leverages large language models as teacher models to guide the distillation process, enabling effective transfer of both structural and temporal reasoning capabilities to lightweight student models. By integrating large-scale public knowledge with task-specific temporal information, the proposed framework enhances the student model's ability to model temporal dynamics while maintaining a compact and efficient architecture. Extensive experiments on multiple publicly available benchmark datasets demonstrate that our method consistently outperforms strong baselines, achieving a favorable trade-off between reasoning accuracy, computational efficiency, and practical deployability.
研究动机与目标
- 在资源受限设备上推动高效的时态知识图谱(TKG)推理。
- 提出一个两阶段蒸馏框架,结合传统教师和大型语言模型(LLMs)引导轻量级学生模型。
- 通过 LLM 感知蒸馏引入时态动态和公开知识,以提高准确性和可部署性。
提出的方法
- 在教师-学生蒸馏设置中,教师是高容量的 TKG 模型,且一个大型语言模型作为次要教师。
- 进行两阶段蒸馏:先让学生与传统教师对齐,然后与 LLM 的预测对齐。
- 损失函数包括:教师-学生之间的 L1 蒸馏(编码器-解码器对齐)、通过 Huber 损失进行的与 LLM 的鲁棒性蒸馏(L2)、以及针对真实标签的监督损失(L3);总体 Ltotal = L1 + α*L2 + 基于 LLM 的 L3(含 β 因子)。”
- LLMs 编码实体-关系语义;预测分数将 LLM 的嵌入整合到基于 softmax 的评分中,监督损失使用来自 LLM 驱动分数的软目标的均方误差(MSE)对齐。
- 在 YAGO11k 和 Wikidata12k 上的骨干模型为 TTransE 和 TADistMult;与 BKD、FitNet、RKD 基线方法进行比较;以 MRR、MR 和 Hits@k 评估。

实验结果
研究问题
- RQ1大型语言模型是否能提升基于蒸馏的轻量 TKG 的时态推理?
- RQ2在标准 TKG 基准上,结合 LLM 指导对比传统蒸馏基线,性能有何影响?
- RQ3在使用 LLM 指导蒸馏时,模型大小、计算量与推理精度之间的权衡如何?
主要发现
| 模型 | 方法 | MRR(YAGO) | MR(YAGO) | Hits@1(YAGO) | Hits@3(YAGO) | Hits@10(YAGO) | MRR(WIKI) | MR(WIKI) | Hits@1(WIKI) | Hits@3(WIKI) | Hits@10(WIKI) |
|---|---|---|---|---|---|---|---|---|---|---|---|
| TTransE | BKD | 7.65 | 1410.12 | 3.50 | 7.83 | 15.61 | 7.94 | 2383.67 | 4.75 | 8.22 | 14.04 |
| TTransE | FitNet | 7.59 | 1201.69 | 3.06 | 7.18 | 16.48 | 7.86 | 2148.86 | 3.93 | 7.78 | 14.67 |
| TTransE | RKD | 7.01 | 1186.27 | 3.56 | 6.95 | 13.47 | 7.89 | 2052.37 | 4.72 | 7.49 | 12.85 |
| TTransE | Ours | 7.69 | 1193.15 | 3.61 | 7.89 | 16.57 | 7.92 | 1985.63 | 4.86 | 8.36 | 14.94 |
| TADistMult | BKD | 61.90 | 973.89 | 58.51 | 64.13 | 67.59 | 45.89 | 3150.11 | 42.46 | 48.87 | 51.18 |
| TADistMult | FitNet | 58.44 | 986.92 | 54.71 | 60.29 | 65.34 | 43.92 | 3158.20 | 39.77 | 47.38 | 50.18 |
| TADistMult | RKD | 58.15 | 1089.57 | 54.48 | 61.72 | 65.17 | 42.72 | 3287.49 | 36.32 | 43.92 | 47.28 |
| TADistMult | Ours | 61.87 | 965.35 | 58.73 | 64.15 | 67.68 | 46.03 | 3142.85 | 42.50 | 49.16 | 51.14 |
- 所提蒸馏方法在两个数据集上均显著优于传统蒸馏基线(BKD、FitNet、RKD)。
- 对于 TTransE,在 YAGO 上相较 BKD 的提升包括 MRR 提升 0.5%、MR 提升 15.4%、Hits@1 提升 3.1%、Hits@3 提升 0.8%、Hits@10 提升 6.1%;在 WIKI 上也有 MRR、Hits@1、Hits@3、Hits@10 的提升。
- 对于 TADistMult,该方法在各指标上的平均提升为 YAGO 2.77%、WIKI 3.28%,达到 Hits@1 和 Hits@3 的最好表现。
- 该方法在 Hits@1 和 Hits@3 上达到最佳性能,表明在时态连边预测中具有较高的高排名准确性。
- 消融实验显示,纳入基于 LLM 的知识蒸馏对 BKD 提供稳健提升,验证了在将时态推理转移到轻量模型中对 LLM 指导的价值。
- 在某些设置下,RKD 出现波动,作者建议更长的训练以缓解不稳定性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。