QUICK REVIEW

[論文レビュー] Grounding Large Language Models in Reaction Knowledge Graphs for Synthesis Retrieval

Olga Bunkova, Lorenzo Di Fruscia|arXiv (Cornell University)|Jan 22, 2026

Machine Learning in Materials Science被引用数 0

ひとこと要約

この論文は反応知識グラフを用いてLLMsを grounding することを検討しており、反応経路取得を Text2Cypher 生成として定式化し、 prompting 戦略とチェックリストベースの修正ループを比較し、再現可能な評価設定を提供する。

ABSTRACT

Large Language Models (LLMs) can aid synthesis planning in chemistry, but standard prompting methods often yield hallucinated or outdated suggestions. We study LLM interactions with a reaction knowledge graph by casting reaction path retrieval as a Text2Cypher (natural language to graph query) generation problem, and define single- and multi-step retrieval tasks. We compare zero-shot prompting to one-shot variants using static, random, and embedding-based exemplar selection, and assess a checklist-driven validator/corrector loop. To evaluate our framework, we consider query validity and retrieval accuracy. We find that one-shot prompting with aligned exemplars consistently performs best. Our checklist-style self-correction loop mainly improves executability in zero-shot settings and offers limited additional retrieval gains once a good exemplar is present. We provide a reproducible Text2Cypher evaluation setup to facilitate further work on KG-grounded LLMs for synthesis planning. Code is available at https://github.com/Intelligent-molecular-systems/KG-LLM-Synthesis-Retrieval.

研究の動機と目的

構造化化学データに基づくLLMsの grounding を動機づけ、合成計画時の幻覚・知識の陳腐化を低減する。
自然言語の質問を反応知識グラフ上の実行可能なグラフクエリへ翻訳する Text2Cypher パイプラインを開発する。
ゼロショットとワンショット prompting 戦略を系統的に比較し、静的・ランダム・埋め込みベースの exemplar 選択を含む。
生成クエリの実行可能性を改善する軽量なチェックリストベースの検証/修正ループを導入する。特にゼロショット設定で有効性を高める。
再現可能な評価設定（データセット、プロンプト、指標）を提供し、反応知識グラフ grounded LLM を合成検索のベンチマークとする。

提案手法

SMILES の USPTO 反応から二部的な反応知識グラフ (KG) を構築し、反応と分子をそれぞれ別のノードタイプとして格納する。
retrosynthesis retrieval を Text2Cypher タスクとして表現し、自然言語クエリから Cypher クエリを生成し Neo4j で実行可能性を検証する。
単一ステップおよび多段階設定ごとに五つのプロンプト変種を設計し、静的・動的ランダム・埋め込みベースの exemplar 選択を用いたゼロショット vs ワンショット prompting を比較する。
検証者が実行可能性をチェックし、無効なクエリを最大三回修正する CoVe（Chain-of-Verification）風ループを実装する。
クエリテキストの類似度指標（BLEU、METEOR、ROUGE-L）と検索指標（精度、再現率、F1; 多段ルートのエンドポイントと部分経路の再現率）を用いて評価する。
生成には GPT-4.1-mini（決定論的）を用い、オープンソースの Text2Cypher 評価設定とコードを提供する。

実験結果

リサーチクエスチョン

RQ1LLMs は反応 KG に対して実行可能な Cypher クエリを生成し、単一ステップ retrosynthesis retrieval を正しく行えるか。
RQ2自然言語で問われた場合、LLMs は正しい多段階 retrosynthesis ルート（長さ4までの経路）を生成できるか。
RQ3ゼロショット vs ワンショット prompting および exemplar 選択戦略は、取得精度と実行可能性にどのような影響を与えるか。
RQ4チェックリストベースの検証/修正ループはクエリの実行可能性と取得品質を改善し、どの条件で最も有益か。

主な発見

aligned exemplars を用いたワンショット prompting が一貫して最良の取得性能をもたらす。
CoVe風の自己修正ループは主にゼロショット設定で実行可能性を改善し、良い exemplar がある場合の利得は限定的。
Text-to-text 類似度指標（BLEU、METEOR、ROUGE-L）はこのタスクの取得精度の良い代理指標ではない。
ゼロショットからワンショット prompting へ移行すると、特に多段タスクにおけるエンドポイントの固定と Traversal-direction の違反といった一般的な取得エラーを減らす。
タスク特有の検証者はボトルネックであり、一般的なチェックリストはタスク特有の失敗を多く見逃すため、スキーマ認識型の検証者が必要である。
このフレームワークは再現可能な Text2Cypher 評価設定とベースライン結果を提供し、KG grounding LLMs の合成計画をガイドする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。