Skip to main content
QUICK REVIEW

[论文解读] Grounding Large Language Models in Reaction Knowledge Graphs for Synthesis Retrieval

Olga Bunkova, Lorenzo Di Fruscia|arXiv (Cornell University)|Jan 22, 2026
Machine Learning in Materials Science被引用 0
一句话总结

本论文通过将反应路径检索形式化为 Text2Cypher 生成,研究以反应知识图 grounding LLMs,比较提示策略与基于清单的校验-纠错循环,并提供可重复的评估设置。

ABSTRACT

Large Language Models (LLMs) can aid synthesis planning in chemistry, but standard prompting methods often yield hallucinated or outdated suggestions. We study LLM interactions with a reaction knowledge graph by casting reaction path retrieval as a Text2Cypher (natural language to graph query) generation problem, and define single- and multi-step retrieval tasks. We compare zero-shot prompting to one-shot variants using static, random, and embedding-based exemplar selection, and assess a checklist-driven validator/corrector loop. To evaluate our framework, we consider query validity and retrieval accuracy. We find that one-shot prompting with aligned exemplars consistently performs best. Our checklist-style self-correction loop mainly improves executability in zero-shot settings and offers limited additional retrieval gains once a good exemplar is present. We provide a reproducible Text2Cypher evaluation setup to facilitate further work on KG-grounded LLMs for synthesis planning. Code is available at https://github.com/Intelligent-molecular-systems/KG-LLM-Synthesis-Retrieval.

研究动机与目标

  • 在合成规划过程中,激励将 LLMs grounding 于结构化化学数据以降低幻觉与过时知识的影响。
  • 开发一个 Text2Cypher 流水线,将自然语言问题翻译为在反应知识图上的可执行图查询。
  • 系统性比较零-shot 与一-shot 提示策略,包括静态、动态随机和基于嵌入的示例选择。
  • 引入轻量级的基于清单的验证/纠错循环,以提高生成查询的可执行性,特别是在零-shot 设置中。
  • 提供一个可重复的评估设置(数据集、提示、度量)以基准 KG-grounded LLMs 的合成检索。

提出的方法

  • 从 USPTO 反应的 SMILES 构建双分图谱的反应知识图(KG),将反应与分子作为不同的节点类型存储。
  • 将逆合成检索视为 Text2Cypher 任务,基于自然语言查询生成 Cypher 查询并在 Neo4j 中验证可执行性。
  • 为每种设定设计五个提示变体(单步与多步),并比较零-shot 与一-shot 提示,包含静态、动态随机、及基于嵌入的示例选择。
  • 实现 Chain-of-Verification (CoVe) 风格循环,验证者检查可执行性,纠错者在最多三次尝试中改正无效查询。
  • 使用查询文本相似度(BLEU、METEOR、ROUGE-L)与检索度量(精确度、召回率、F1;多步路径的端点锚定和部分路径召回)进行评估。
  • 使用 GPT-4.1-mini(确定性)进行生成,并提供一个开源的 Text2Cypher 评估设置与代码。

实验结果

研究问题

  • RQ1LLMs 是否能够生成可执行的 Cypher 查询,以在反应 KG 上实现正确的单步逆合成检索?
  • RQ2当通过自然语言查询时,LLMs 是否能够产生正确的多步逆合成路径(最长长度为 4)?
  • RQ3零-shot 与一-shot 提示以及示例选择策略如何影响检索准确性与可执行性?
  • RQ4基于清单的验证/纠错循环是否提高查询可执行性与检索质量,在何种条件下最有益?

主要发现

  • 一-shot 提示配合对齐示例始终带来最佳检索性能。
  • CoVe 风格的自我纠错循环在零-shot 设置下主要提升可执行性,在给定良好示例时收益有限。
  • 文本到文本相似性指标(BLEU、METEOR、ROUGE-L)并非本任务的检索准确性良好代理。
  • 从零-shot 转向一-shot 提示可减少常见的检索错误,特别是在多步任务中的端点锚定与遍历方向违规。
  • 任务特定的验证器是瓶颈;通用清单忽略了许多任务特定的失败,提示需要具备模式感知的验证器。
  • 该框架提供了一个可重复的 Text2Cypher 评估设置和基线结果,以指导 KG-grounded LLMs 在合成规划中的应用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。