[논문 리뷰] A Graph to Graphs Framework for Retrosynthesis Prediction
G2Gs 는 템플릿 없는 retrosynthesis 모델로 목표 분자 그래프를 반응 중심 식별 및 변량 그래프 변환을 통해 반응물 그래프로 번역하며, 템플릿 기반 방법에 근접한 강한 top-1 성능을 보이고 확장성도 좋다.
A fundamental problem in computational chemistry is to find a set of reactants to synthesize a target molecule, a.k.a. retrosynthesis prediction. Existing state-of-the-art methods rely on matching the target molecule with a large set of reaction templates, which are very computationally expensive and also suffer from the problem of coverage. In this paper, we propose a novel template-free approach called G2Gs by transforming a target molecular graph into a set of reactant molecular graphs. G2Gs first splits the target molecular graph into a set of synthons by identifying the reaction centers, and then translates the synthons to the final reactant graphs via a variational graph translation framework. Experimental results show that G2Gs significantly outperforms existing template-free approaches by up to 63% in terms of the top-1 accuracy and achieves a performance close to that of state-of-the-art template based approaches, but does not require domain knowledge and is much more scalable.
연구 동기 및 목표
- Retrosynthesis 예측의 동기를 부여하고 비용과 일반화의 한계를 템플릿 기반 방법에서 해결한다.
- 분자 그래프 위에서 작동하는 템플릿이 필요 없는 그래프-투-그래프 프레임워크(G2Gs)를 제안한다.
- 반응 중심을 식별하여 합성물(synthons)을 만들고 이를 변량 그래프 번역기로 반응물로 번역한다.
- 잠재 변수(z)를 그래프 생성 프레임워크 내에서 도입하여 예측의 다모달성과 다양성을 포착한다.
- baselines와 비교해 USPTO-50k 데이터셋에서 확장성과 경쟁력 있는 성능을 demonstrations한다.
제안 방법
- 분자를 그래프로 표현하고 Relational GCN을 기반으로 한 반응 중심 스코어링 네트워크를 통해 반응 중심을 식별한다.
- 반응 중심을 분리해 산물(product)를 synthon으로 분해하고, 각 synthon을 변량 그래프 번역 모델로 반응물로 번역한다(잠재 변수 z 포함).
- Reactant-Google 분포 P(G|S)을 z와 S에 조건부로 그래프 변환 액션을 자가 회귀적으로 생성하여 모델링한다.
- 가우시안 근사 후방 분포 q(z|G,S)를 이용한 암묵적(AMORTIZED) 변분 목표(ELBO)로 번역기를 학습한다.
- 추출Bias를 완화하고 다양한 유효한 반응물 그래프를 생성하기 위해 추론 시 빔 검색을 사용한다.
실험 결과
연구 질문
- RQ1템플릿 없는 그래프 기반 모델이 도메인 지식 반응 템플릿에 의존하지 않고도 경쟁력 있는 역합성 정확도를 달성할 수 있는가?
- RQ2제품 그래프에서 반응 중심을 얼마나 효과적으로 식별하여 역합성을 synthon 수준의 번역으로 분해할 수 있는가?
- RQ3변량 그래프 번역 모듈이 주어진 synthon에 대한 다모달 분포를 포착하면서 화학적 타당성을 유지할 수 있는가?
- RQ4G2Gs의 USPTO-50k에서 템플릿 기반 및 다른 템플릿 프리 접근법과 비교했을 때 확장성과 성능은 어떠한가?
주요 결과
| 방법 | Top-1 % | Top-3 % | Top-5 % | Top-10 % |
|---|---|---|---|---|
| Seq2seq | 37.4 | 52.4 | 57.0 | 61.7 |
| G2Gs | 61.0 | 81.3 | 86.0 | 88.7 |
| Retrosim | 52.9 | 73.8 | 81.2 | 88.1 |
| Neuralsym | 55.3 | 76.0 | 81.4 | 85.1 |
| GLN | 64.2 | 79.1 | 85.2 | 90.0 |
- G2Gs는 USPTO-50k에서 top-1 정확도에서 최대 63%의 템플릿 프리 기준선보다 우수하다.
- G2Gs는 도메인 지식에 의존하지 않고도 최첨단 템플릿 기반 방법에 근접하거나 이를 능가한다.
- 반응 중심 식별은 정확도가 높으며, 반응 분류가 알려진 경우(상위-1 90.2%)에 특히 높고 미지의 분류에서도 여전히 강력한 성능을 보인다(상위-1 75.8%).
- 변량 그래프 번역은 높은 top-k 정확도를 보이며(예: 반응 분류가 알려진 경우: 상위-1 66.8%, 상위-5 91.5%, 상위-10 93.9%).
- 잠재 변수를 통해 다채롭고 유효한 반응물 생성을 가능하게 하며, 주어진 synthon에 대해 여러 가지 가능 번역이 존재함으로써 이를 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.