QUICK REVIEW

[논문 리뷰] Re-evaluating Retrosynthesis Algorithms with Syntheseus

Krzysztof Maziarz, Austin Tripp|arXiv (Cornell University)|2023. 10. 30.

Machine Learning in Materials Science인용 수 8

한 줄 요약

이 논문은 단일 단계와 다중 단계 역합성의 일관된 평가를 위한 syntheseus 벤치마크라이브러리를 소개하고 이를 사용해 기존 방법들을 재평가하여, 신중한 평가 하에서 모델 순위가 바뀌는 것을 드러낸다.

ABSTRACT

Automated Synthesis Planning has recently re-emerged as a research area at the intersection of chemistry and machine learning. Despite the appearance of steady progress, we argue that imperfect benchmarks and inconsistent comparisons mask systematic shortcomings of existing techniques, and unnecessarily hamper progress. To remedy this, we present a synthesis planning library with an extensive benchmarking framework, called syntheseus, which promotes best practice by default, enabling consistent meaningful evaluation of single-step models and multi-step planning algorithms. We demonstrate the capabilities of syntheseus by re-evaluating several previous retrosynthesis algorithms, and find that the ranking of state-of-the-art models changes in controlled evaluation experiments. We end with guidance for future works in this area, and call the community to engage in the discussion on how to improve benchmarks for synthesis planning.

연구 동기 및 목표

일관되지 않은 벤치마크와 비교로 인한 역합성 평가 관행의 개선 필요성을 촉구한다.
기본적으로 최선의 관행을 강제하는 표준화되고 확장 가능한 평가 프레임워크(syntheseus)를 제공한다.
신중하고 엔드 투 엔드 평가를 통해 순위가 어떻게 변하는지 보여주기 위해 기존의 단일 단계 및 다중 단계 역합성 방법을 재평가한다.
체계적 분석에 기반한 향후 역합성 연구 및 평가에 대한 지침을 제시한다.

제안 방법

역합성을 위한 모듈식의 모델에 구애받지 않는 평가 플랫폼으로 syntheseus를 도입한다.

실험 결과

연구 질문

RQ1단일 단계 및 다중 단계 방법에 대한 현재 역합성 평가 관행의 함정은 무엇인가?
RQ2표준화된 벤치마킹 파이프라인이 역합성 모델의 보고된 성능 및 순위에 어떤 영향을 미치는가?
RQ3CASP 시스템의 공정하고 엔드 투 엔드 평가를 가능하게 하기 위해 어떤 최선의 관행을 분야가 채택해야 하는가?
RQ4syntheseus를 사용한 재평가가 이전에 보고된 결과와 순위를 바로잡거나 수정할 수 있는가?
RQ5향후 역합성 평가의 발전을 위한 어떤 지침을 제시할 수 있는가?

주요 결과

Syntheseus는 역합성 방법의 일관된 엔드투엔드 평가를 가능하게 하며 이전 문헌과 비교하여 모델 순위의 변화를 드러낸다.
재평가 결과는 일관된 후처리, 중복 제거 및 유효성 검사로 인해 일부 보고 메트릭에서 문헌 대비 향상을 보인다.
단일 단계 모델은 속도-정확도 트레이드오프에서 차이가 있으며, 변환 기반 그래프 출력이 상위 k에서 순수 디코더 기반 접근 방식보다 자주 우수하다.
다중 단계 검색 결과는 고정된 단일 단계 모델과 평가 설정에 의존하므로 공정한 베이스라인과 통제된 비교의 필요성을 강조한다.
본 연구는 재현율 기반 메트릭의 한계를 강조하고 엔드투엔드 CASP 성능을 더 잘 반영하기 위해 추론 시간과 다양성을 보고하도록 권고한다.
최선의 관행에는 정밀도 중심 평가 사용, 출력 중복 제거, 분자 유효성 검증, 모델 호출 캐싱, 전문가의 질적 평가 포함이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.