QUICK REVIEW

[논문 리뷰] When Single Answer Is Not Enough: Rethinking Single-Step Retrosynthesis Benchmarks for LLMs

Bogdan Zagribelnyy, Ivan Ilin|arXiv (Cornell University)|2026. 02. 03.

Machine Learning in Materials Science인용 수 0

한 줄 요약

논문은 ChemCensor라는 단일단계 역설계에 대한 plausibility 기반 메트릭을 소개하고, CREED (~6.4M 반응)와 URSA-expert-2026 벤치마크를 구축하며 CREED에서 Chemistry Constraint–Consistent Language Model (C3LM)을 학습시키면 역설계 성능이 표준 베이스라인을 넘어 향상된다는 것을 보여준다.

ABSTRACT

Recent progress has expanded the use of large language models (LLMs) in drug discovery, including synthesis planning. However, objective evaluation of retrosynthesis performance remains limited. Existing benchmarks and metrics typically rely on published synthetic procedures and Top-K accuracy based on single ground-truth, which does not capture the open-ended nature of real-world synthesis planning. We propose a new benchmarking framework for single-step retrosynthesis that evaluates both general-purpose and chemistry-specialized LLMs using ChemCensor, a novel metric for chemical plausibility. By emphasizing plausibility over exact match, this approach better aligns with human synthesis planning practices. We also introduce CREED, a novel dataset comprising millions of ChemCensor-validated reaction records for LLM training, and use it to train a model that improves over the LLM baselines under this benchmark.

연구 동기 및 목표

단일 단계 역합성 평가에서 exact-match Top-K 메트릭의 한계를 제시한다.
반응 선례와 기능기 맥락을 사용해 화학적 타당성을 평가하는 ChemCensor를 제안한다.
모델 학습 및 벤치마킹을 위한 대규모의 검증된 반응 데이터셋 CREED를 만든다.
SSRS에 대한 전문가 주석이 달린 외부 도메인 벤치마크로서 URSA-expert-2026을 도입한다.
CREED에서 C3LM을 학습시키면 baselines와 비교하여 URSA-expert-2026 및 USPTO-50K-test에서 우수한 성능을 얻는다는 것을 보여준다.

제안 방법

ChemCensor를 반응 중심(RC)과 기능기(FG) 맥락에 기반한 선례 기반 점수(0-5)로 정의하고 USPTO-full에서 파생된 지식베이스와의 정렬을 수행한다.
반응을 RC 및 FG 시그니처로 분해하고 선별된 선례 라이브러리와 대조하여 CC 점수를 부여한다.
Forward 및 역생성 파이프라인, CC 기반 검증 및 USPTO-50K-test에 대한 오염 제거를 통해 CREED (~6.4M 반응)을 구성한다.
화학자들에 의한 합성 가능성 검증이 포함된 100개의 새로운 전문가 주석 대상 타깃으로 URSA-expert-2026 벤치마크를 구성한다.
CREED에서 C3LM을 학습시키되(USPTO-full 데이터를 포함/비포함), 감독 미세조정과 선택적 Reasoning traces를 적용한다; ChemCensor 보상과 MT 기반 신호를 활용한 강화학습 미세조정을 적용한다.

실험 결과

연구 질문

RQ1화학적 plausibility 기반 메트릭이 Top-K 정확 일치 메트릭보다 역합성 품질을 더 잘 포착할 수 있는가?
RQ2전통적 벤치마크와 비교했을 때 ChemCensor와 URSA-expert-2026으로 평가할 때 SSRS에서 대형언어모델(LLMs)의 성능은 얼마나 잘 나타나는가?
RQ3큰 규모의 plausibility-검증 데이터셋(CREED)에서의 학습이 SSRS에서 일반화 및 RC/FG 호환성을 향상시키는가?
RQ4Reasoning traces와 강화학습 보상이 plausibility 지향 역합성 출력에 미치는 영향은 무엇인가?
RQ5CREED로 학습한 모델의 개선이 USPTO-50K와 같은 표준 벤치마크로 얼마나 이전될 수 있는가?

주요 결과

ChemCensor는 역합성 단계에 대한 선례 지원 및 RC/FG 호환성을 반영하는 0-5 plausibility 점수를 제공한다.
URSA-expert-2026은 모델 성능이 USPTO-50K에 비해 하락하는 더 어려운 외부 도메인 벤치마크를 제시하며, 많은 베이스라인이 plausibility에서 어려움을 겪는다.
CREED는 ~6.4 million 반응을 포함하고 화학 plausibility에 대해 검증되어 다양하면서도 그럴듯한 SSRS 출력이 가능하다.
C3LM 학습된 CREED(CREED-전용 또는 CREED+USPTO-full)은 URSA-expert-2026 및 USPTO-50K-test에서 최상위 또는 거의 최상위의 ChemCensor 점수를 달성한다.
Reasoning-enabled 미세조정은 Avg. PT-Max CC를 개선하여 plausibility한 반응 맥락의 더 나은 커버리지를 시사한다; ChemCensor 보상을 사용하는 RL은 plausibility를 높이지만 다양성에 영향을 줄 수 있다.
Molecular-Transformer 보상은 도메인 일반화 한계로 URSA-expert-2026 성능을 악화시킬 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.