Skip to main content
QUICK REVIEW

[论文解读] In silico generation of novel, drug-like chemical matter using the LSTM neural network

Peter Ertl, Richard A. Lewis|arXiv (Cornell University)|Dec 20, 2017
Computational Drug Discovery Methods参考文献 15被引用 35
一句话总结

本论文提出了一种基于LSTM的深度生成模型,通过从ChEMBL中的生物活性化合物中学习,在计算机中生成新颖的类药物分子。该模型使用SMILES编码的分子进行训练,在两小时内生成了百万例结构多样、可合成且理化性质有利的分子,虚拟筛选结果证实其生物活性潜力与训练集相当。

ABSTRACT

The exploration of novel chemical spaces is one of the most important tasks of cheminformatics when supporting the drug discovery process. Properly designed and trained deep neural networks can provide a viable alternative to brute-force de novo approaches or various other machine-learning techniques for generating novel drug-like molecules. In this article we present a method to generate molecules using a long short-term memory (LSTM) neural network and provide an analysis of the results, including a virtual screening test. Using the network one million drug-like molecules were generated in 2 hours. The molecules are novel, diverse (contain numerous novel chemotypes), have good physicochemical properties and have good synthetic accessibility, even though these qualities were not specific constraints. Although novel, their structural features and functional groups remain closely within the drug-like space defined by the bioactive molecules from ChEMBL. Virtual screening using the profile QSAR approach confirms that the potential of these novel molecules to show bioactivity is comparable to the ChEMBL set from which they were derived. The molecule generator written in Python used in this study is available on request.

研究动机与目标

  • 开发一种无需依赖暴力枚举的深度生成模型,用于创建新颖的类药物化学结构。
  • 探索LSTM网络是否能够从ChEMBL中学习生物活性分子的化学语法规则与结构偏好。
  • 在不显式施加约束条件的情况下,生成具有有利理化性质与合成性质的分子。
  • 利用轮廓QSAR与虚拟筛选评估生成分子的生物活性潜力。
  • 为药物发现流程提供公开可用、开源的实现。

提出的方法

  • 该模型使用长短期记忆(LSTM)循环神经网络,逐个字符生成SMILES字符串,从ChEMBL中大量类药物分子数据集中学习。
  • SMILES字符串被分词为字符,并作为序列处理,使LSTM能够学习有效分子语法的序列模式。
  • 网络通过交叉熵损失函数,基于先前字符预测SMILES序列中的下一个字符进行训练。
  • 通过标准SMILES解析与规范化验证生成序列的化学有效性。
  • 在生成后计算分子性质(如分子量、logP与合成可及性),以评估类药物性质。
  • 在ChEMBL数据集上训练轮廓QSAR模型,并将其应用于生成分子,以预测生物活性可能性。

实验结果

研究问题

  • RQ1LSTM模型能否学习生成化学上有效且新颖的SMILES字符串,代表类药物分子?
  • RQ2生成的分子在类药物化学空间中,其结构与功能团多样性在多大程度上得以保留?
  • RQ3在未显式优化的情况下,生成的分子是否表现出有利的理化性质与合成性质?
  • RQ4生成分子的生物活性潜力是否与ChEMBL训练集相当?
  • RQ5该模型能否在短时间内高效生成大量结构多样、高质量的分子?

主要发现

  • 该模型仅用两小时即成功生成一百万种新颖且化学有效的分子,展示了极高的生成效率。
  • 生成的分子表现出高度的结构多样性,包含大量训练集中未出现的新化学类型。
  • 分子表现出有利的理化性质,包括分子量、logP与拓扑极性表面积,均处于典型的类药物范围。
  • 合成可及性评分较低(中位数约2.5),表明其合成可行性高,尽管未对这一性质施加显式约束。
  • 使用轮廓QSAR进行虚拟筛选显示,生成分子的生物活性预测特征与ChEMBL训练集相当。
  • 该模型表明,使用LSTM的深度生成建模可有效探索并扩展生物活性分子的化学空间。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。