Skip to main content
QUICK REVIEW

[논문 리뷰] Predicting Organic Reaction Outcomes with Weisfeiler-Lehman Network

Wengong Jin, Connor W. Coley|arXiv (Cornell University)|2017. 09. 13.
Machine Learning in Materials Science참고 문헌 14인용 수 190
한 줄 요약

템플릿 없는 접근 방식은 Weisfeiler-Lehman networks를 사용하여 반응 중심을 식별하고 후보 생성물을 순위 매김하며, USPTO 데이터셋에서 약 84%와 78%의 정확도를 달성하고 템플릿보다 성능이 우수하며 약 140배 빠르게 작동한다.

ABSTRACT

The prediction of organic reaction outcomes is a fundamental problem in computational chemistry. Since a reaction may involve hundreds of atoms, fully exploring the space of possible transformations is intractable. The current solution utilizes reaction templates to limit the space, but it suffers from coverage and efficiency issues. In this paper, we propose a template-free approach to efficiently explore the space of product molecules by first pinpointing the reaction center -- the set of nodes and edges where graph edits occur. Since only a small number of atoms contribute to reaction center, we can directly enumerate candidate products. The generated candidates are scored by a Weisfeiler-Lehman Difference Network that models high-order interactions between changes occurring at nodes across the molecule. Our framework outperforms the top-performing template-based approach with a 10\% margin, while running orders of magnitude faster. Finally, we demonstrate that the model accuracy rivals the performance of domain experts.

연구 동기 및 목표

  • 유기 반응 결과를 미리 정의된 반응 템플릿 없이 예측하는 문제를 동기 부여하고 해결한다.
  • 그래프 편집이 발생하는 최소한의 반응 중심을 식별하여 탐색 공간을 제약한다.
  • 화학적으로 타당한 후보 생성물을 열거하고 이들을 순위 매겨 진짜 생성물을 선택한다.

제안 방법

  • 분자를 라벨이 붙은 그래프로 표현하고 반응을 반응물에서 생성물로 변환하는 그래프 편집으로 프레이밍한다.
  • Weisfeiler-Lehman Network (WLN)을 사용하여 원자 수준 임베딩을 학습하고 쌍원자 반응성 점수를 예측한다.
  • 전역 주의 메커니즘을 도입하여 반응 중심에 대한 원거리 화학 효과를 포착한다.
  • 상위 K개의 원자 쌍을 선택하여 반응 중심을 형성하고 이 센터 내에서 가능한 결합 구성을 열거하여 후보를 생성한다.
  • WLDN을 사용하여 후보를 순위 매긴다; 반응물과 후보의 차원 벡터 간의 고차 상호작용을 모델링한다.
  • 예측된 반응성과 후보에 대한 softmax 기반의 랭킹 목적어를 사용하는 엔드-투-엔드 학습.
Figure 1: An example reaction where the reaction center is (27,28), (7,27), and (8,27), highlighted in green. Here bond (27,28) is deleted and (7,27) and (8,27) are connected by aromatic bonds to form a new ring. The corresponding reaction template consists of not only the reaction center, but nearb
Figure 1: An example reaction where the reaction center is (27,28), (7,27), and (8,27), highlighted in green. Here bond (27,28) is deleted and (7,27) and (8,27) are connected by aromatic bonds to form a new ring. The corresponding reaction template consists of not only the reaction center, but nearb

실험 결과

연구 질문

  • RQ1템플릿 없는 접근 방식이 다양한 유기 반응에서 반응 중심을 효율적으로 식별할 수 있는가?
  • RQ2WLN 기반 표현과 주의력이 반응 중심 예측에 필요한 원거리 효과를 포착하는가?
  • RQ3예측된 반응 중심 내에서 후보를 열거하고 WLDN으로 순위 매기는 것이 템플릿 기반 방법보다 커버리지와 정확도에서 더 우수한가?
  • RQ4대형 USPTO 유래 데이터셋에서 템플릿 없는 방법은 속도와 확장성 측면에서 템플릿 기반 접근 방식과 비교해 어떤가?

주요 결과

  • 전역 WLN 모델(주의 포함)은 로컬 모델보다 반응 중심 식별을 개선하여 커버리지 높고(K=8일 때 대략 90% 이상) 원거리 시약의 영향을 받는 중심 예측에서 더 나은 성능.
  • 예측된 반응 중심을 사용한 후보 생성은 후보 세트를 컴팩트하게 만들어 예: 평균적으로 K=6에서 약 60 후보로 형성하며 템플릿 기반 방법에 비해 커버리지가 경쟁적이고 훨씬 적은 템플릿을 필요로 한다.
  • WLDN은 WLN보다 순위 정확도에서 더 우수하며, 반응 중심 차이의 고차 상호작용이 제품 순위를 개선함.
  • USPTO-15K에서 WLDN(*)은 83.9% P@1, 93.2% P@3, 95.2% P@5를 달성; USPTO에서 WLDN(*)는 WLN보다 더 높은 커버리지와 랭킹을 유지한다.
  • 휴먼 평가에서 모델은 80개 반응에서 69.1% 정확도를 달성하여 연구에서 평균 화학자 성능을 능가함
Figure 2: Overview of our approach. (1) we train a model to identify pairwise atom interactions in the reaction center. (2) we pick the top $K$ atom pairs and enumerate chemically-feasible bond configurations between these atoms. Each bond configuration generates a candidate outcome of the reaction.
Figure 2: Overview of our approach. (1) we train a model to identify pairwise atom interactions in the reaction center. (2) we pick the top $K$ atom pairs and enumerate chemically-feasible bond configurations between these atoms. Each bond configuration generates a candidate outcome of the reaction.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.