[论文解读] Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge Graph Question Answering
作者提出 KAPING,一种零-shot 框架,通过从知识图获取与任务相关的事实并将其加入到大语言模型提示中,以在不进行模型微调的情况下改善零-shot KGQA。
Large Language Models (LLMs) are capable of performing zero-shot closed-book question answering tasks, based on their internal knowledge stored in parameters during pre-training. However, such internalized knowledge might be insufficient and incorrect, which could lead LLMs to generate factually wrong answers. Furthermore, fine-tuning LLMs to update their knowledge is expensive. To this end, we propose to augment the knowledge directly in the input of LLMs. Specifically, we first retrieve the relevant facts to the input question from the knowledge graph based on semantic similarities between the question and its associated facts. After that, we prepend the retrieved facts to the input question in the form of the prompt, which is then forwarded to LLMs to generate the answer. Our framework, Knowledge-Augmented language model PromptING (KAPING), requires no model training, thus completely zero-shot. We validate the performance of our KAPING framework on the knowledge graph question answering task, that aims to answer the user's question based on facts over a knowledge graph, on which ours outperforms relevant zero-shot baselines by up to 48% in average, across multiple LLMs of various sizes.
研究动机与目标
- 激励并解决依赖内部参数的零-shot 大语言模型问答中事实准确性差距。
- 通过增强提示来利用外部、最新的知识图(KG)事实,以为答案提供依据。
- 通过提供完全的零-shot 提示解决方案来避免微调。
- 展示对问题相关三元组的筛选如何提高性能和效率。
提出的方法
- 将 KG 三元组表示为文本描述,并将其放在问题提示之前。
- 仅使用句子嵌入检索与问题最语义相关的前 K 个三元组。
- 使用一个知识提示,在问题之前呈现检索到的事实以引导 LLM。
- 在数据集(WebQuestionsSP、Mintaka)和不同的 LLM 大小上对零-shot KGQA 进行评估,且不进行参数更新。
- 分析检索准确性、知识量和排序对生成性能的影响。
实验结果
研究问题
- RQ1在提示中加入外部 KG 知识是否可以在不进行模型训练的情况下提升零-shot KGQA?
- RQ2选择语义相似的 KG 三元组对问答准确性和效率有何影响?
- RQ3在零-shot 设置下,KAPING 在不同 LLM 大小和 KGQA 数据集上的表现如何?
主要发现
- KAPING 在跨数据集和模型规模上显著优于零-shot LM 提示基线。
- 检索并注入前 K 个语义上相似的 KG 三元组可以提升准确性,而随机或全部三元组的增强可能会降低性能。
- 较小的语言模型从知识增强中获益更多,在提供事实正确时,性能有时可接近较大模型的表现。
- 使用 1 跳检索并设定 10 个三元组上限,可在准确性和效率之间取得良好平衡。
- 检索质量(基于 MPNet)在将答案定位到正确知识上方面优于随机或流行三元组基线。
- 在提示中检索到的事实顺序对大多数 LLM 的影响通常有限,对某些模型有一定敏感性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。