[论文解读] Temporal Knowledge Graph Forecasting Without Knowledge Using In-Context Learning
该论文表明,具备上下文学习能力的大型语言模型在不进行微调的情况下即可对未来Temporal Knowledge Graph (TKG)事实进行预测,在多个基准上与有监督方法的性能相当,即使在移除语义信息的情况下也是如此。
Temporal knowledge graph (TKG) forecasting benchmarks challenge models to predict future facts using knowledge of past facts. In this paper, we apply large language models (LLMs) to these benchmarks using in-context learning (ICL). We investigate whether and to what extent LLMs can be used for TKG forecasting, especially without any fine-tuning or explicit modules for capturing structural and temporal information. For our experiments, we present a framework that converts relevant historical facts into prompts and generates ranked predictions using token probabilities. Surprisingly, we observe that LLMs, out-of-the-box, perform on par with state-of-the-art TKG models carefully designed and trained for TKG forecasting. Our extensive evaluation presents performances across several models and datasets with different characteristics, compares alternative heuristics for preparing contextual information, and contrasts to prominent TKG methods and simple frequency and recency baselines. We also discover that using numerical indices instead of entity/relation names, i.e., hiding semantic information, does not significantly affect the performance ($\pm$0.4\% Hit@1). This shows that prior semantic knowledge is unnecessary; instead, LLMs can leverage the existing patterns in the context to achieve such performance. Our analysis also reveals that ICL enables LLMs to learn irregular patterns from the historical context, going beyond simple predictions based on common or recent information.
研究动机与目标
- 仅使用过去观测来驱动对未来TKG事实的预测,而不需要额外训练。
- 探索历史上下文选择、提示设计和解码如何影响ICL性能。
- 评估基于LLM的TKG预测是否需要语义知识。
- 在标准基准上将基于LLM的ICL与有监督、基于架构的TKG方法进行比较。
提出的方法
- 将TKG预测框架化为使用LLMs的上下文学习问题。
- 三阶段流程:(1) 历史建模以筛选相关的过去事实,(2) 使用词汇表示或索引表示构造提示,(3) 将LLM输出解码为对实体的概率分布。
- 在实体历史与实体对历史、单向历史与双向历史、词汇提示与索引提示之间进行实验。
- 利用数字标签映射作为间接logits来推导实体概率。
- 在标准TKG基准(WIKI、YAGO、ICEWS14/18、ACLED-CD22)上,在单步和多步设定下进行评估。
- 与有监督基线和启发式规则进行对比,分析历史长度和模型规模的扩展性。
实验结果
研究问题
- RQ1LLMs在零样本ICL中是否可以在不进行微调的情况下进行TKG预测?
- RQ2历史选择(实体对历史、单向历史与双向历史)如何影响预测质量?
- RQ3当预测未来TKG事实时,语义先验对LLM有意义吗(例如词汇提示与数值提示?)
- RQ4提示设计选择和历史长度如何影响各数据集上的Hits@k表现?
- RQ5经过指令微调的模型(如GPT-3.5-turbo)在提示中是否从语义先验中受益?
主要发现
- 具备ICL的LLMs在不进行训练的情况下,与有监督的SOTA TKG方法在Hits@1、Hits@3、Hits@10等指标上具有竞争力(在中位数的-3.6%到+1.5%之内)。
- 当实体/关系被映射为任意数字时,性能仍然较高,表明语义知识对预测并非关键。
- LLMs在所有数据集上都优于最佳的启发式规则基线(Hits@1提升10%到28%)。
- 历史长度与模型规模与Hits@1呈正相关,表明对TKG预测的ICL性能存在扩展规律。
- 指令微调模型在词汇提示下呈现一定提升,表明在某些提示下语义先验对ICL有帮助。
- 提示的变体显示ICL依赖于学习到的模式,而非简单的频率/最近性偏好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。