[논문 리뷰] Learning To Navigate The Synthetically Accessible Chemical Space Using Reinforcement Learning
이 논문은 Forward Synthesis를 위한 정책 경사(Policy Gradient) 프레임워크인 PGFS를 소개합니다. 이는 forward 다단 합성을 통해 합성 가능 영역을 탐색하고, de novo 약물설계에 합성 가능성을 내재화합니다. 이는 QED와 penalized clogP에서 최첨단 지표를 달성하고, 시뮬레이션에서 HIV 표적 활성 개선을 보입니다.
Over the last decade, there has been significant progress in the field of machine learning for de novo drug design, particularly in deep generative models. However, current generative approaches exhibit a significant challenge as they do not ensure that the proposed molecular structures can be feasibly synthesized nor do they provide the synthesis routes of the proposed small molecules, thereby seriously limiting their practical applicability. In this work, we propose a novel forward synthesis framework powered by reinforcement learning (RL) for de novo drug design, Policy Gradient for Forward Synthesis (PGFS), that addresses this challenge by embedding the concept of synthetic accessibility directly into the de novo drug design system. In this setup, the agent learns to navigate through the immense synthetically accessible chemical space by subjecting commercially available small molecule building blocks to valid chemical reactions at every time step of the iterative virtual multi-step synthesis process. The proposed environment for drug discovery provides a highly challenging test-bed for RL algorithms owing to the large state space and high-dimensional continuous action space with hierarchical actions. PGFS achieves state-of-the-art performance in generating structures with high QED and penalized clogP. Moreover, we validate PGFS in an in-silico proof-of-concept associated with three HIV targets. Finally, we describe how the end-to-end training conceptualized in this study represents an important paradigm in radically expanding the synthesizable chemical space and automating the drug discovery process.
연구 동기 및 목표
- 합성 가능성을 직접적으로 de novo 약물 설계에 통합하여 생성 분자가 합성 가능하도록 보장하려는 동기 부여.
- 반응 물질과 반응 템플릿의 연속적 작용 공간을 탐색하는 forward synthesis RL 프레임워크를 개발하고자 함.
- End-to-end 학습으로 다단 합성 계획을 enabling하여 원하는 분자 특성을 극대화하고자 함.
- 표준 약물유사성 지표 및 in silico HIV 표적 활성에서의 개선을 입증하고자 함.
- 합성 접근 가능한 산물로의 생성을 편향시키는 확장 가능한 학습 패러다임을 제공하려고 함.
제안 방법
- 모노드 포노 약물 설계를 RL을 사용하여 반응 템플릿과 반응 물질을 선택하는 연속 forward 합성 문제로 모델링한다.
- 두 개의 학습 가능한 네트워크(f와 π) 및 값을 추정하는 Q-네트워크를 가진 연속 작용-비평가 프레임워크(TD3)를 사용한다.
- 먼저 반응 템플릿을 선택하고, 그 다음 호환 가능한 반응 물질을 선택하는 2단계 작용 분해를 사용한다(연속 임베딩을 통한 이산 공간 축소).
- 연속 특성 공간에서 반응 물질을 표현하고 각 단계에 대해 top-k 가장 가까운 반응 물질을 선택하기 위해 k-NN를 사용하여 작용을 이산 분자에 매핑한다.
- 템플릿 선택이 불확실할 때 경사 흐름을 가능하게 하기 위해 템플릿에 대해 Gumbel-softmax를 통합한다.
- 타깃 정책 스무딩 및 이중-Q 학습을 포함한 표준 TD3 업데이트와 재생 버퍼 및 지연된 배우 업데이트를 사용하여 학습한다.
- 각 단계에서 유효한 생성물 분자를 생성하기 위해 RDKit과 SMARTS 기반 반응 템플릿을 사용한다.
- Morgan 지문과 MolDSet 특징을 입력 특징으로 사용하여 QED, penalized clogP 및 HIV-타깃 QSAR 모델을 이용해 평가한다.
실험 결과
연구 질문
- RQ1forward 합성 경로를 통해 합성 가능하게 된 de novo 분자를 RL 에이전트가 생성할 수 있는가?
- RQ2목표에 forward-synthesis 제약 조건을 내재화하는 것이 표준 약물유사성 지표(QED)와 합성 가능성 지표(penalized clogP)를 개선하는가?
- RQ3RL 기반 forward-synthesis 프레임워크가 HIV 관련 타깃에 대한 in silico 활성 예측을 baseline 무작위 탐색과 비교하여 개선되는가?
- RQ4forward 합성의 큰 이산 작용 공간을 다루기 위한 실용적 학습 고려사항과 표현 방식은 무엇인가?
주요 결과
- PGFS는 random search baselines에 비해 QED 및 penalized clogP에서 최첨단 성능을 달성한다.
- in-silico HIV 타깃 연구에서 PGFS는 세 HIV 관련 타깃에 대해 예측 활성도가 더 높은 분자를 생성했다.
- 계층적 작용 분해(템플릿-먼저 반응 물질)와 k-NN을 이용한 연속 임베딩이 매우 큰 작용 공간에서 학습 가능성을 확보한다.
- QSAR 모델에 대해 AD 필터링 여부와 상관없이 QD 및 penalized clogP 개선이 유지되어 평가 설정 전반에서 견고함을 나타낸다.
- forward synthesis의 엔드-투-엔드 학습이 합성 접근 가능한 화학 공간을 급격히 확장하고 신약 발견을 자동화하는 방법을 시연한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.