Skip to main content
QUICK REVIEW

[论文解读] Multi-Objective Molecule Generation using Interpretable Substructures

Wengong Jin, Regina Barzilay|arXiv (Cornell University)|Feb 8, 2020
Computational Drug Discovery Methods参考文献 43被引用 86
一句话总结

论文提出 RationaleRL,一种基于推理的图生成模型,用于多目标分子设计:从可解释的子结构组成分子,并通过强化学习优化多种属性,在若干任务上达到最先进的结果。

ABSTRACT

Drug discovery aims to find novel compounds with specified chemical property profiles. In terms of generative modeling, the goal is to learn to sample molecules in the intersection of multiple property constraints. This task becomes increasingly challenging when there are many property constraints. We propose to offset this complexity by composing molecules from a vocabulary of substructures that we call molecular rationales. These rationales are identified from molecules as substructures that are likely responsible for each property of interest. We then learn to expand rationales into a full molecule using graph generative models. Our final generative model composes molecules as mixtures of multiple rationale completions, and this mixture is fine-tuned to preserve the properties of interest. We evaluate our model on various drug design tasks and demonstrate significant improvements over state-of-the-art baselines in terms of accuracy, diversity, and novelty of generated compounds.

研究动机与目标

  • 解决同时满足多种性质约束的分子设计挑战。
  • 识别影响特定性质的小型、属性驱动的子结构(rationales)。
  • 通过扩展 rationales 并微调混合物来组装完整分子,以保持目标性质。
  • 通过向用户和领域专家公开 rationale 词汇,使分子生成具有可解释性。

提出的方法

  • 使用 Monte Carlo Tree Search 从正分子中提取单一性质的 rationale,寻找具有高预测性质分数且规模较小的连通子图。
  • 通过最大公共子结构(MCS)和叠加将单一性质的 rationales 合并为多性质的 rationales,以满足多重约束。
  • 将图完成模型 P(G|S) 训练为变分自编码器,使给定的 rationale S 展开为完整分子 G,同时确保 S 包含在 G 中。
  • 学习 rationale 分布 P(S),偏好更可能产生正分子的 rationales,并使用熵正则化以鼓励探索。
  • 在来自 ChEMBL 的数据上对图生成器进行预训练以学习现实的扩展,然后使用策略梯度结合性质预测器作为奖励进行微调。
  • 使用 Frechet ChemNet Distance (FCD) 和毒性 rationales 评估来评估 rationales 的分布相似性和保真度。

实验结果

研究问题

  • RQ1如何通过将分子分解为可解释的子结构(rationales)来实现多性质分子设计?
  • RQ2一个基于 rationales 的图生成器能否将 rationales 扩展为满足多种性质约束的现实分子?
  • RQ3与从头生成相比,学习 rationale 分布 P(S) 是否能改善多性质优化?
  • RQ4rationales 是否对应化学上有意义的子结构,是否有助于与毒性相关的解释?
  • RQ5在不同的多性质约束设置下,RationaleRL 与最先进的基线相比如何?

主要发现

方法GSK3β_SuccessGSK3β_NoveltyGSK3β_DiversityJNK3_SuccessJNK3_NoveltyJNK3_DiversityGSK3β+JNK3_SuccessGSK3β+JNK3_NoveltyGSK3β+JNK3_Diversity
JT-VAE32.2%11.8%0.90123.5%2.9%0.8823.3%7.9%0.883
GCPN42.4%11.6%0.90432.3%4.4%0.8843.5%8.0%0.874
GVAE-RL33.2%76.4%0.87457.7%62.6%0.83240.7%80.3%0.783
REINVENT99.3%61.0%0.73398.5%31.6%0.72997.4%39.7%0.595
RationaleRL100%53.4%0.888100%46.2%0.862100%97.3%0.824
  • RationaleRL 在单一、两项和四项属性约束任务中,在成功率、新颖性和多样性方面实现了最先进的性能。
  • 在两属性约束下,RationaleRL 实现 100% 的成功率,具有高新颖性(100%)和强多样性(0.824)。
  • 在四性质约束下,RationaleRL 远超基线(例如,74.8% 对 47.9% 的成功率,0.701 对 0.621 的多样性)。
  • 消融研究表明,与从头生成(GVAE-RL 基线)相比,rationales 提供了明显的好处。
  • 通过 MCTS 提取的 rationales 覆盖已知阳性分子的化学空间,生成的双抑制剂在分布上更接近真实阳性(FCD 低于 REINVENT)。
  • 在毒性相关评估中的 rationale 准确性表明有意义且可靠的 rationale,部分匹配和精确匹配指标均倾向于所提出的方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。