Skip to main content
QUICK REVIEW

[论文解读] Generating Focussed Molecule Libraries for Drug Discovery with Recurrent Neural Networks

Marwin Segler, Thierry Kogej|arXiv (Cornell University)|Jan 5, 2017
Computational Drug Discovery Methods参考文献 21被引用 68
一句话总结

论文表明循环神经网络能够学习基于 SMILES 的表示以生成有效的药物类分子,并且在少量已知活性集合上微调可以产生聚焦库,富集于靶向活性,从而实现带有靶点预测评分的完整从头设计循环。

ABSTRACT

In de novo drug design, computational strategies are used to generate novel molecules with good affinity to the desired biological target. In this work, we show that recurrent neural networks can be trained as generative models for molecular structures, similar to statistical language models in natural language processing. We demonstrate that the properties of the generated molecules correlate very well with the properties of the molecules used to train the model. In order to enrich libraries with molecules active towards a given biological target, we propose to fine-tune the model with small sets of molecules, which are known to be active against that target. Against Staphylococcus aureus, the model reproduced 14% of 6051 hold-out test molecules that medicinal chemists designed, whereas against Plasmodium falciparum (Malaria) it reproduced 28% of 1240 test molecules. When coupled with a scoring function, our model can perform the complete de novo drug design cycle to generate large sets of novel molecules for drug discovery.

研究动机与目标

  • 使用 SMILES 表示和 RNN 来学习分子结构的生成模型,以产生有效、药物样分子。
  • 通过在少量已知活性集合上对预训练模型进行微调,展示迁移学习以生成针对特定靶点的聚焦库。
  • 评估生成的分子是否能被 ML 基于靶向预测模型预测为对特定靶点有活性的分子。
  • 通过将生成与评分以及在活性分子上的再训练相结合,探索设计-合成-测试循环,以模拟迭代药物发现。

提出的方法

  • 将分子表示为 SMILES 字符串,并用循环神经网络对 SMILES 语法进行建模。
  • 使用三层 LSTM,每层 1024 个单元,输入采用 one-hot 编码;使用 ADAM 和梯度裁剪进行训练。
  • 在一个大型基于 ChEMBL 的 SMILES 数据集(1.4 百万分子)上进行预训练,以学习一般化的化学语言。
  • 对预训练模型在小型活性集合上进行微调以获得特定靶点,并在每个 epoch 之后采样新分子。
  • 应用靶点预测模型(GBT,使用 ECFP4 指纹)对生成分子在选定靶点上的活性进行打分。
  • 通过从训练好的模型逐符号采样,生成大规模库并评估其相对于训练数据的性质。

实验结果

研究问题

  • RQ1一个在 SMILES 上训练的 RNN 是否能够学习有效的、药物样的分子结构?
  • RQ2从大型通用分子数据集迁移学习到针对小型靶点的活性集合,是否能够产生聚焦、富含活性库?
  • RQ3生成的分子在多大程度上能再现特定靶点的已知活性,随机抽样的富集程度如何?
  • RQ4将生成与靶点预测评分器结合,是否能够实现完整的从头设计循环(设计–合成–测试循环)?
  • RQ5key_findings subqueries?
  • RQ6key_findings
  • RQ7table_headers
  • RQ8table_rows

主要发现

  • 在 1.4M 个 ChEMBL 分子上训练的一般模型,在大规模采样后能够生成有效、药物样的 SMILES,其有效性高(97.7% 有效)。
  • 在靶点活性上进行微调可获得可观的富集和再现性:对于 Staphylococcus aureus,在对 1000 个活性进行微调后,能够再现 6051 个测试活性中的 14%;对于 Plasmodium falciparum,在对 1239 个活性进行训练、生成 128,256 个分子后,能够再现 1240 个测试活性中的 28%(EOR 66.9)。
  • 对于 Pf 瘧疾,即使只有 100 个训练活性,也可实现 7% 的再现和 EOR 19.0;当 pIC50>9 时,观察到 11% 的再现和 EOR 35.7。
  • 对于 5-HT2A 受体靶向,在经过少数 epoch 的微调后,在四个 epoch 后可获得约 50% 的预测活性分子。
  • 预训练对于在困难靶点上的良好性能至关重要(例如 Staph. aureus);从零开始训练的模型性能不如预训练再微调的模型。
  • 在设计–合成–测试风格的循环中,迭代生成、评分和再训练产生了 60,988 个被预测为活性的独特分子,展示了该方法运行完整从头设计工作流的潜力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。