Skip to main content
QUICK REVIEW

[论文解读] MARS: Markov Molecular Sampling for Multi-objective Drug Discovery

Yutong Xie, Chence Shi|arXiv (Cornell University)|Mar 18, 2021
Computational Drug Discovery Methods参考文献 35被引用 26
一句话总结

MARS 引入带自适应的、由图神经网络引导的片段编辑提案的马尔可夫链蒙特卡洛采样,以搜索新颖的多目标药物类分子,在若干目标组合上取得了最先进的结果。

ABSTRACT

Searching for novel molecules with desired chemical properties is crucial in drug discovery. Existing work focuses on developing neural models to generate either molecular sequences or chemical graphs. However, it remains a big challenge to find novel and diverse compounds satisfying several properties. In this paper, we propose MARS, a method for multi-objective drug molecule discovery. MARS is based on the idea of generating the chemical candidates by iteratively editing fragments of molecular graphs. To search for high-quality candidates, it employs Markov chain Monte Carlo sampling (MCMC) on molecules with an annealing scheme and an adaptive proposal. To further improve sample efficiency, MARS uses a graph neural network (GNN) to represent and select candidate edits, where the GNN is trained on-the-fly with samples from MCMC. Experiments show that MARS achieves state-of-the-art performance in various multi-objective settings where molecular bio-activity, drug-likeness, and synthesizability are considered. Remarkably, in the most challenging setting where all four objectives are simultaneously optimized, our approach outperforms previous methods significantly in comprehensive evaluations. The code is available at https://github.com/yutxie/mars.

研究动机与目标

  • 在药物发现中激励多目标分子设计,其中需要同时优化多种性质。
  • 开发基于采样的框架,在不依赖实验数据的情况下高效地探索广阔的化学空间。
  • 实现对片段编辑提案的自适应学习,以在运行时改进分子生成。
  • 在生成的分子中实现新颖性、多样性与目标满足之间的平衡。
  • 在若干多目标基准测试中展示最先进的性能,包括药物相似性与合成性。

提出的方法

  • 将分子设计表述为从一个未归一化的目标分布进行采样,该分布结合了多种性质分数。
  • 使用带有自适应提案的退火 MCMC,通过片段添加和删除操作来编辑分子图。
  • 用基于 MPNN 的模型表示编辑提案,该模型输出关于 add/frag/delete 操作的分布。
  • 使用改进候选样本的最大似然来对编辑模型进行现场训练,利用自生成的样本。
  • 使用从 ChEMBL 数据库提取的片段词汇表来约束编辑。
  • 在包括生物活性、QED 和 SA 在内的多目标设置中评估该方法,并与 RL、VAE、基于理由的方法以及 GA 基线进行比较。

实验结果

研究问题

  • RQ1是否可以将多目标分子设计有效地框架为对显式分子图进行马尔可夫采样,并带有自适应、可学习的提案?
  • RQ2在 GNN 指导下的自适应、基于片段的图编辑提案是否提高了样本效率,并在多目标下生成新颖、多样且药物性分子的结果?
  • RQ3在单目标和多目标分子设计任务中,MARS 相对于最先进基线的表现如何,涉及成功率、新颖性、多样性,以及组合 PM 指标?

主要发现

  • 根据 PM(成功率、新颖性和多样性的乘积),MARS 在六个任务中有五个任务胜过基线。
  • 在最具挑战性的四目标设置(对两个靶标的生物活性、QED 和 SA),MARS 实现了最先进的性能,在 PM 上比此前方法高出 77%。
  • 用 MCMC 样本现场训练的自适应片段编辑提案提高了效率和生成质量。
  • MARS 产生的新颖且多样的分子具备药物性并且高度可合成,具有有利的可视化和案例示例。
  • 带自适应提案的退火 MCMC 远超天真策略,显示出更快的收敛和更好的整体结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。