QUICK REVIEW

[论文解读] Grounding Large Language Models in Reaction Knowledge Graphs for Synthesis Retrieval

Olga Bunkova, Lorenzo Di Fruscia|arXiv (Cornell University)|Jan 22, 2026

Machine Learning in Materials Science被引用 0

一句话总结

本论文通过将反应路径检索形式化为 Text2Cypher 生成，研究以反应知识图 grounding LLMs，比较提示策略与基于清单的校验-纠错循环，并提供可重复的评估设置。

ABSTRACT

Large Language Models (LLMs) can aid synthesis planning in chemistry, but standard prompting methods often yield hallucinated or outdated suggestions. We study LLM interactions with a reaction knowledge graph by casting reaction path retrieval as a Text2Cypher (natural language to graph query) generation problem, and define single- and multi-step retrieval tasks. We compare zero-shot prompting to one-shot variants using static, random, and embedding-based exemplar selection, and assess a checklist-driven validator/corrector loop. To evaluate our framework, we consider query validity and retrieval accuracy. We find that one-shot prompting with aligned exemplars consistently performs best. Our checklist-style self-correction loop mainly improves executability in zero-shot settings and offers limited additional retrieval gains once a good exemplar is present. We provide a reproducible Text2Cypher evaluation setup to facilitate further work on KG-grounded LLMs for synthesis planning. Code is available at https://github.com/Intelligent-molecular-systems/KG-LLM-Synthesis-Retrieval.

研究动机与目标

在合成规划过程中，激励将 LLMs grounding 于结构化化学数据以降低幻觉与过时知识的影响。
开发一个 Text2Cypher 流水线，将自然语言问题翻译为在反应知识图上的可执行图查询。
系统性比较零-shot 与一-shot 提示策略，包括静态、动态随机和基于嵌入的示例选择。
引入轻量级的基于清单的验证/纠错循环，以提高生成查询的可执行性，特别是在零-shot 设置中。
提供一个可重复的评估设置（数据集、提示、度量）以基准 KG-grounded LLMs 的合成检索。

提出的方法

从 USPTO 反应的 SMILES 构建双分图谱的反应知识图（KG），将反应与分子作为不同的节点类型存储。
将逆合成检索视为 Text2Cypher 任务，基于自然语言查询生成 Cypher 查询并在 Neo4j 中验证可执行性。
为每种设定设计五个提示变体（单步与多步），并比较零-shot 与一-shot 提示，包含静态、动态随机、及基于嵌入的示例选择。
实现 Chain-of-Verification (CoVe) 风格循环，验证者检查可执行性，纠错者在最多三次尝试中改正无效查询。
使用查询文本相似度（BLEU、METEOR、ROUGE-L）与检索度量（精确度、召回率、F1；多步路径的端点锚定和部分路径召回）进行评估。
使用 GPT-4.1-mini（确定性）进行生成，并提供一个开源的 Text2Cypher 评估设置与代码。

实验结果

研究问题

RQ1LLMs 是否能够生成可执行的 Cypher 查询，以在反应 KG 上实现正确的单步逆合成检索？
RQ2当通过自然语言查询时，LLMs 是否能够产生正确的多步逆合成路径（最长长度为 4）？
RQ3零-shot 与一-shot 提示以及示例选择策略如何影响检索准确性与可执行性？
RQ4基于清单的验证/纠错循环是否提高查询可执行性与检索质量，在何种条件下最有益？

主要发现

一-shot 提示配合对齐示例始终带来最佳检索性能。
CoVe 风格的自我纠错循环在零-shot 设置下主要提升可执行性，在给定良好示例时收益有限。
文本到文本相似性指标（BLEU、METEOR、ROUGE-L）并非本任务的检索准确性良好代理。
从零-shot 转向一-shot 提示可减少常见的检索错误，特别是在多步任务中的端点锚定与遍历方向违规。
任务特定的验证器是瓶颈；通用清单忽略了许多任务特定的失败，提示需要具备模式感知的验证器。
该框架提供了一个可重复的 Text2Cypher 评估设置和基线结果，以指导 KG-grounded LLMs 在合成规划中的应用。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。