[论文解读] Grounding Large Language Models in Reaction Knowledge Graphs for Synthesis Retrieval
本论文通过将反应路径检索形式化为 Text2Cypher 生成,研究以反应知识图 grounding LLMs,比较提示策略与基于清单的校验-纠错循环,并提供可重复的评估设置。
Large Language Models (LLMs) can aid synthesis planning in chemistry, but standard prompting methods often yield hallucinated or outdated suggestions. We study LLM interactions with a reaction knowledge graph by casting reaction path retrieval as a Text2Cypher (natural language to graph query) generation problem, and define single- and multi-step retrieval tasks. We compare zero-shot prompting to one-shot variants using static, random, and embedding-based exemplar selection, and assess a checklist-driven validator/corrector loop. To evaluate our framework, we consider query validity and retrieval accuracy. We find that one-shot prompting with aligned exemplars consistently performs best. Our checklist-style self-correction loop mainly improves executability in zero-shot settings and offers limited additional retrieval gains once a good exemplar is present. We provide a reproducible Text2Cypher evaluation setup to facilitate further work on KG-grounded LLMs for synthesis planning. Code is available at https://github.com/Intelligent-molecular-systems/KG-LLM-Synthesis-Retrieval.
研究动机与目标
- 在合成规划过程中,激励将 LLMs grounding 于结构化化学数据以降低幻觉与过时知识的影响。
- 开发一个 Text2Cypher 流水线,将自然语言问题翻译为在反应知识图上的可执行图查询。
- 系统性比较零-shot 与一-shot 提示策略,包括静态、动态随机和基于嵌入的示例选择。
- 引入轻量级的基于清单的验证/纠错循环,以提高生成查询的可执行性,特别是在零-shot 设置中。
- 提供一个可重复的评估设置(数据集、提示、度量)以基准 KG-grounded LLMs 的合成检索。
提出的方法
- 从 USPTO 反应的 SMILES 构建双分图谱的反应知识图(KG),将反应与分子作为不同的节点类型存储。
- 将逆合成检索视为 Text2Cypher 任务,基于自然语言查询生成 Cypher 查询并在 Neo4j 中验证可执行性。
- 为每种设定设计五个提示变体(单步与多步),并比较零-shot 与一-shot 提示,包含静态、动态随机、及基于嵌入的示例选择。
- 实现 Chain-of-Verification (CoVe) 风格循环,验证者检查可执行性,纠错者在最多三次尝试中改正无效查询。
- 使用查询文本相似度(BLEU、METEOR、ROUGE-L)与检索度量(精确度、召回率、F1;多步路径的端点锚定和部分路径召回)进行评估。
- 使用 GPT-4.1-mini(确定性)进行生成,并提供一个开源的 Text2Cypher 评估设置与代码。
实验结果
研究问题
- RQ1LLMs 是否能够生成可执行的 Cypher 查询,以在反应 KG 上实现正确的单步逆合成检索?
- RQ2当通过自然语言查询时,LLMs 是否能够产生正确的多步逆合成路径(最长长度为 4)?
- RQ3零-shot 与一-shot 提示以及示例选择策略如何影响检索准确性与可执行性?
- RQ4基于清单的验证/纠错循环是否提高查询可执行性与检索质量,在何种条件下最有益?
主要发现
- 一-shot 提示配合对齐示例始终带来最佳检索性能。
- CoVe 风格的自我纠错循环在零-shot 设置下主要提升可执行性,在给定良好示例时收益有限。
- 文本到文本相似性指标(BLEU、METEOR、ROUGE-L)并非本任务的检索准确性良好代理。
- 从零-shot 转向一-shot 提示可减少常见的检索错误,特别是在多步任务中的端点锚定与遍历方向违规。
- 任务特定的验证器是瓶颈;通用清单忽略了许多任务特定的失败,提示需要具备模式感知的验证器。
- 该框架提供了一个可重复的 Text2Cypher 评估设置和基线结果,以指导 KG-grounded LLMs 在合成规划中的应用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。