QUICK REVIEW

[論文レビュー] When Single Answer Is Not Enough: Rethinking Single-Step Retrosynthesis Benchmarks for LLMs

Bogdan Zagribelnyy, Ivan Ilin|arXiv (Cornell University)|Feb 3, 2026

Machine Learning in Materials Science被引用数 0

ひとこと要約

論文はChemCensorという単一步逆合成の妥当性ベース指標を提案し、CREED（約6.4M反応）とURSA-expert-2026ベンチマークを構築、CREED上でC3LMを訓練することが標準ベースラインを超える逆合成性能を示す。

ABSTRACT

Recent progress has expanded the use of large language models (LLMs) in drug discovery, including synthesis planning. However, objective evaluation of retrosynthesis performance remains limited. Existing benchmarks and metrics typically rely on published synthetic procedures and Top-K accuracy based on single ground-truth, which does not capture the open-ended nature of real-world synthesis planning. We propose a new benchmarking framework for single-step retrosynthesis that evaluates both general-purpose and chemistry-specialized LLMs using ChemCensor, a novel metric for chemical plausibility. By emphasizing plausibility over exact match, this approach better aligns with human synthesis planning practices. We also introduce CREED, a novel dataset comprising millions of ChemCensor-validated reaction records for LLM training, and use it to train a model that improves over the LLM baselines under this benchmark.

研究の動機と目的

単一步逆合成評価における厳密一致Top-K指標の限界を動機付ける。
反応先行事例と機能基系文脈を用いて化学的妥当性を評価するChemCensorを提案する。
モデル訓練とベンチマーク用の大規模で検証済み反応データセットCREEDを作成する。
SSRSの専門家注釈付きアウトオブドメインベンチマークとしてURSA-expert-2026を導入する。
CREED上でC3LMを訓練することで、ベースラインと比較してURSA-expert-2026およびUSPTO-50K-testの両方で優れた性能を得られることを示す。

提案手法

ChemCensorを反応中心（RC）と機能基（FG）文脈に基づく前例ベーススコア（0-5）として定義し、USPTO-full由来の知識ベースへの整合を取る。
反応をRCとFGのシグネチャに分解し、厳選された前例ライブラリと比較してCCスコアを割り当てる。
forwardおよびretro生成パイプライン、CCベースの検証、USPTO-50K-testに対するデコンタミネーションを用いてCREED（約6.4M反応）を構築する。
化学者による合成適合性検証を伴う100の新規専門家注釈ターゲットからなるURSA-expert-2026をベンチマークとして組み立てる。
CREED（USPTO-fullデータ有無）でC3LMを訓練し、監視付きファインチューニングと任意のReasoning tracesを適用する；ChemCensor報酬とMTベース信号を用いた強化学習ファインチューニングを適用する。

実験結果

リサーチクエスチョン

RQ1化学的妥当性ベースの指標はTop-Kの厳密一致指標よりも逆合成の品質をより適切に捉えられるのか？
RQ2ChemCensorとURSA-expert-2026を用いた評価は、伝統的なベンチマークと比べてLLMはSSRSでどの程度良くなるのか？
RQ3CREEDのような大規模で妥当性検証済みデータセットで訓練すると、SSRSの一般化とRC/FGの適合性が向上するのか？
RQ4Reasoning tracesと強化学習報酬が妥当性志向の逆合成出力に与える影響は何か？
RQ5CREED訓練モデルの改善はUS PTO-50Kなどの標準ベンチマークへどの程度転移可能か？

主な発見

ChemCensorは逆合成ステップの前例支援とRC/FG適合性を反映する0-5の妥当性スコアを提供する。
URSA-expert-2026はアウトオブドメインの難易度が高く、USPTO-50Kと比べてモデル性能が低下する場面が多く、前例性が妥当性の課題となる多くのベースラインを難しくする。
CREEDには約6.4百万の反応が含まれ、化学的妥当性が検証され、多様でありつつ妥当性のあるSSRS出力を可能にする。
CREEDだけ（CREED-のみ）またはCREED+USPTO-fullで訓練したC3LMは、URSA-expert-2026とUSPTO-50K-testの両方で最良またはほぼ最良のChemCensorスコアを達成する。
Reasoningを有するファインチューニングはAvg. PT-Max CCの向上を示し、妥当性のある反応文脈の網羅性が改善されることを示唆する；ChemCensor報酬を用いたRLは妥当性を高めるが多様性に影響を与える可能性がある。
Molecular-Transformerの報酬はドメイン一般化の限界によりURSA-expert-2026の性能を低下させる可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。