[论文解读] RADAR: Reasoning as Discrimination with Aligned Representations for LLM-based Knowledge Graph Reasoning
RADAR 将知识图谱推理从生成性模式匹配重新定义为使用对齐表示的判别关系推理,在分布外鲁棒性和相较强大的LLM基线的性能提升方面表现出色。
Knowledge graph reasoning (KGR) infers missing facts, with recent advances increasingly harnessing the semantic priors and reasoning abilities of Large Language Models (LLMs). However, prevailing generative paradigms are prone to memorizing surface-level co-occurrences rather than learning genuine relational semantics, limiting out-of-distribution generalization. To address this, we propose RADAR, which reformulates KGR from generative pattern matching to discriminative relational reasoning. We recast KGR as discriminative entity selection, where reinforcement learning enforces relative entity separability beyond token-likelihood imitation. Leveraging this separability, inference operates directly in representation space, ensuring consistency with the discriminative optimization and bypassing generation-induced hallucinations. Across four benchmarks, RADAR achieves 5-6% relative gains on link prediction and triple classification over strong LLM baselines, while increasing task-relevant mutual information in intermediate representations by 62.9%, indicating more robust and transferable relational reasoning.
研究动机与目标
- 通过解决标记级别生成训练中的共现捷径,推动对LLMs的鲁棒知识图谱推理。
- 将 KGR 重塑为在受限候选空间内的判别实体选择,以强调关系有效性。
- 开发两阶段训练方案(有监督微调随后强化学习),与离散实体分离对齐。
- 在表示空间中进行推理,避免生成引起的幻觉,并确保与判别训练信号的一致性。
- 量化信息增益和归纳泛化,以支持关系推理的鲁棒性和可迁移性。
提出的方法
- 将 KGR 重塑为在候选集合中结合正尾实体和负尾实体的判别实体选择。
- 引入具有不同答案基数和负样本难度的分层任务难度。
- 使用两阶段训练管线:带有链式思维推理痕迹的有监督微调,其次使用 Group Relative Policy Optimization 的强化学习。
- 通过提取中间层表示并训练一个二元可能性分类器来实现表示空间推理,用于三元组。
- 对于链接预测采用先检索再排序的方法,使用轻量级 KGE 模型提出候选项,使用学习得到的分类器对其进行排序。
- 提出任务自适应互信息,用探测分类器测量中间表示中编码的与任务相关的信息。
实验结果
研究问题
- RQ1RADAR 是否在标准 KGR 基准和任务上实现强且稳定的性能?
- RQ2RADAR 的核心设计组件(任务表述、训练目标、推理策略)如何促成性能与泛化?
- RQ3RADAR 能否对未见实体实现鲁棒的归纳泛化,并将关系知识迁移到领域相关任务?
主要发现
- RADAR 在四个基准上相较强大 LLM 基线,在链接预测和三元组分类上平均实现5–6%相对提升。
- 消融实验表明提升来自将训练、优化和推理与判别、基于表示的推理对齐。
- RADAR 使中间表示中的任务相关互信息平均提升62.9%,表明关系推理更加鲁棒。
- 在仅有 LLM 的设置中,采用相同骨干框架时,RADAR 相对于 KG-LLAMA 与 FLAME 基线在链接预测和三元组分类上分别获得平均相对增益6.1%和5.7%。
- RADAR 展现对多种 LLM(LLaMA、Pythia、Qwen)的链接预测鲁棒骨干无关改进。
- RADAR 在归纳条件下仍保持优越性能,对未见三元组和领域对齐的零-shot 任务有显著提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。