[论文解读] Learning To Navigate The Synthetically Accessible Chemical Space Using Reinforcement Learning
本文提出用于前向合成的策略梯度(PGFS),一种通过前向多步合成在合成可及化空间中搜索的强化学习框架,将合成可行性嵌入到从头药物设计中。它在QED和惩罚性clogP上实现了最先进的指标,并在体内外对HIV靶标活性有改进的在计算层面的证明。
Over the last decade, there has been significant progress in the field of machine learning for de novo drug design, particularly in deep generative models. However, current generative approaches exhibit a significant challenge as they do not ensure that the proposed molecular structures can be feasibly synthesized nor do they provide the synthesis routes of the proposed small molecules, thereby seriously limiting their practical applicability. In this work, we propose a novel forward synthesis framework powered by reinforcement learning (RL) for de novo drug design, Policy Gradient for Forward Synthesis (PGFS), that addresses this challenge by embedding the concept of synthetic accessibility directly into the de novo drug design system. In this setup, the agent learns to navigate through the immense synthetically accessible chemical space by subjecting commercially available small molecule building blocks to valid chemical reactions at every time step of the iterative virtual multi-step synthesis process. The proposed environment for drug discovery provides a highly challenging test-bed for RL algorithms owing to the large state space and high-dimensional continuous action space with hierarchical actions. PGFS achieves state-of-the-art performance in generating structures with high QED and penalized clogP. Moreover, we validate PGFS in an in-silico proof-of-concept associated with three HIV targets. Finally, we describe how the end-to-end training conceptualized in this study represents an important paradigm in radically expanding the synthesizable chemical space and automating the drug discovery process.
研究动机与目标
- 将合成可行性直接整合到从头药物设计中,以确保生成的分子可合成。
- 开发一个前向合成强化学习框架,能够在广阔、连续的反应物和反应模板动作空间中导航。
- 实现端到端学习的多步合成规划,以最大化所需的分子性质。
- 在标准药物相似性指标和体计算的HIV靶标活性方面显示改进。
- 提供一个可扩展的训练范式,使生成偏向合成可获取的产物。
提出的方法
- 将从头药物设计建模为一个序贯的前向合成问题,使用RL来选择反应模板和反应物。
- 使用两个可学习网络(f 和 pi)和一个Q网络来估算价值的连续动作演员-评论家框架(TD3)。
- 使用两级动作分解:先选择一个反应模板,然后选择一个兼容的反应物(通过连续嵌入将离散空间简化为离散的近似)。
- 在把反应物表示为连续特征空间并使用k-NN为每一步选择前k个最接近的反应物来将动作映射到离散分子。
- 在模板选择不确定时对模板应用Gumbel-softmax以实现梯度流。
- 使用标准的TD3更新进行训练,包括目标策略平滑和双Q学习,配合回放缓冲区和延迟的演员更新。
- 使用RDKit和基于SMARTS的反应模板在每一步生成可行的产物分子。
- 通过QED、惩罚性clogP和HIV靶点QSAR模型(以 Morgan 指纹和 MolDSet 描述符作为输入特征)进行评估。
实验结果
研究问题
- RQ1一个强化学习代理能通过前向合成路线生成在合成方面可获取的从头分子吗?
- RQ2将前向合成约束嵌入目标函数是否能提升标准药物相似性指标(QED)和合成可行性指标(惩罚性clogP)?
- RQ3基于RL的前向合成框架是否在体计算的HIV相关靶标活性预测方面优于基线随机搜索?
- RQ4在处理前向合成中大量离散反应物动作空间时,需要哪些实际的训练注意事项和表示方法?
主要发现
- 相较于随机搜索基线,PGFS在QED和惩罚性clogP方面达到最先进的性能。
- 在体计算的HIV靶标研究中,PGFS生成的分子对三个HIV相关靶标具有更高的预测活性,相较于基线。
- 分层动作分解(模板先于反应物)加上带有k-NN的连续嵌入使在极大动作空间中的学习具有可处理性。
- QD和惩罚性clogP的改进在有无QSAR模型AD过滤的评估设置下都成立,表明鲁棒性。
- 该方法展示了端到端前向合成训练如何从根本上扩展合成可获取的化学空间并实现药物发现的自动化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。