Skip to main content
QUICK REVIEW

[논문 리뷰] Retro*: Learning Retrosynthetic Planning with Neural Guided A* Search

Binghong Chen, Chengtao Li|arXiv (Cornell University)|2020. 06. 29.
Asymmetric Hydrogenation and Catalysis인용 수 42
한 줄 요약

Retro*는 AND-OR 트리와 오프라인 학습된 값 추정치를 이용해 효율적으로 고품질 합성 경로를 찾는 신경망 가이드의 A* 유사 역합성 계획 알고리즘으로, USPTO 기반 벤치마크에서 기존 방법들을 능가합니다.

ABSTRACT

Retrosynthetic planning is a critical task in organic chemistry which identifies a series of reactions that can lead to the synthesis of a target product. The vast number of possible chemical transformations makes the size of the search space very big, and retrosynthetic planning is challenging even for experienced chemists. However, existing methods either require expensive return estimation by rollout with high variance, or optimize for search speed rather than the quality. In this paper, we propose Retro*, a neural-based A*-like algorithm that finds high-quality synthetic routes efficiently. It maintains the search as an AND-OR tree, and learns a neural search bias with off-policy data. Then guided by this neural network, it performs best-first search efficiently during new planning episodes. Experiments on benchmark USPTO datasets show that, our proposed method outperforms existing state-of-the-art with respect to both the success rate and solution quality, while being more efficient at the same time.

연구 동기 및 목표

  • 대량의 탐색 공간 속에서 효율적이고 고품질의 다단계 역합성 계획을 동기 부여합니다.
  • 확장 방향을 유망한 경로로 편향시키는 신경 가이드의 단일 플레이어 검색(AND-OR 트리)을 개발합니다.
  • 온라인 검색을 가이드하고 효율성과 품질을 개선하기 위해 계획 데이터에서 V_m 값을 오프라인으로 학습합니다.
  • 전문가 판단 없이 다단계 역합성 방법을 평가하기 위한 벤치마크 데이터셋과 지표를 제공합니다.

제안 방법

  • 분자(OR) 노드와 반응(AND) 노드로 역합성을 AND-OR 검색 트리로 표현합니다.
  • 그 노드 선택이 g_t와 h_t 구성요소로 분해된 학습된 가치 함수 V_t(m|T)에 의존하는 A*-유사 검색을 사용합니다.
  • 반응 수 rn(·|T)를 정의하고 트리 구조로부터 V_t(m|T)를 도출하여 저비용 경로로의 확장을 안내합니다.
  • Morgan 지문과 회귀 목표와 일관성 항을 더해 오프라인 계획 데이터에서 V_m를 학습하여 경로 비용을 존중하도록 합니다.
  • 일차 역합성 모델 B를 통해 프런티어 분자를 확장하고 트리 전체를 아래로부터 캐시된 방식으로 V_t를 업데이트합니다.
  • 학습 및 벤치마킹용 USPTO 데이터를 이용해 합성 경로를 생성하는 데이터 수집 파이프라인을 제공합니다.

실험 결과

연구 질문

  • RQ1신경 가이드가 적용된 단일 플레이어 AND-OR 탐색이 효율적으로 고품질의 역합성 경로를 찾을 수 있는가?
  • RQ2V_m으로 분자 비용을 오프라인으로 학습하는 것이 비학습 기준선과 비교하여 탐색 효율성과 해를 개선하는가?
  • RQ3USPTO 기반 벤치마크에서 Retro*가 DFPN-E 및 MCTS 기반 방법들과 비교해 성공률, 경로 길이, 총 비용 측면에서 어떻게 성능을 보이는가?

주요 결과

Algorithm성공률시간더 짧은 경로더 나은 경로
Retro*86.84%156.5850112
Retro*-079.47%208.5852102
DFPN-E+53.68%289.425922
DFPN-E55.26%279.675925
MCTS+35.79%365.211846
MCTS33.68%370.511441
Greedy DFS22.63%388.151126
  • Retro*는 테스트 세트에서 86.84%의 성공률을 달성하며 DFPN-E+ 및 MCTS 변형을 포함한 경쟁자들을 능가합니다.
  • 동일한 시간 예산에서 Retro*는 두 번째로 좋은 방법(DFPN-E)보다 테스트 분자 31%를 더 해결합니다.
  • Retro* 해법 중 50개의 경로가 전문가 경로보다 짧고 112개가 총 비용 측면에서 더 좋습니다.
  • Retro*-0(V_m=0)으로 제거 실험은 성공률에서 약 6포인트의 성능 저하를 야기하며 학습의 이점을 보여줍니다.
  • 학습된 V_m를 MCTS+ 및 DFPN-E+와 함께 사용하면 이들 플래너 전반에서 가치 함수의 유용성이 개선됩니다.
  • Retro*는 더 많은 시간(더 많은 1단계 호출)에서 성공률이 더 빠르게 향상됨을 보이며 기준선보다 우수합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.