[论文解读] Molecular Generation with Recurrent Neural Networks (RNNs)
本文提出使用带有长短期记忆(LSTM)单元的循环神经网络(RNN),通过在SMILES编码的化合物上进行训练,生成新颖且化学上合理的分子。该模型成功生成了与训练数据属性分布高度匹配的分子,且超过80%的生成药物样分子为新颖且可合成的,经合成可及性评分和逆合成分析验证。
The potential number of drug like small molecules is estimated to be between 10^23 and 10^60 while current databases of known compounds are orders of magnitude smaller with approximately 10^8 compounds. This discrepancy has led to an interest in generating virtual libraries using hand crafted chemical rules and fragment based methods to cover a larger area of chemical space and generate chemical libraries for use in in silico drug discovery endeavors. Here it is explored to what extent a recurrent neural network with long short term memory cells can figure out sensible chemical rules and generate synthesizable molecules by being trained on existing compounds encoded as SMILES. The networks can to a high extent generate novel, but chemically sensible molecules. The properties of the molecules are tuned by training on two different datasets consisting of fragment like molecules and drug like molecules. The produced molecules and the training databases have very similar distributions of molar weight, predicted logP, number of hydrogen bond acceptors and donors, number of rotatable bonds and topological polar surface area when compared to their respective training sets. The compounds are for the most cases synthesizable as assessed with SA score and Wiley ChemPlanner.
研究动机与目标
- 探究带有LSTM单元的RNN是否能够学习化学规则,并从SMILES字符串生成新颖且可合成的分子。
- 评估生成分子的分子属性分布(如分子量、logP、可旋转键数等)是否与训练数据中的分布一致。
- 通过合成可及性(SA)评分和逆合成规划工具(如Wiley ChemPlanner)评估生成分子的合成可行性。
- 确定生成分子相对于训练集的新颖程度,并识别潜在的过拟合现象。
提出的方法
- 从Zinc12数据库中获取SMILES字符串(清洁片段和药物样子集),通过添加起始(!)和结束(E)标记进行预处理,并通过独热编码进行向量化。
- 使用Theano后端的Keras实现深层RNN架构,包含两层256单元的LSTM,后接使用ReLU激活函数的两层前馈网络。
- 模型采用输入dropout(0.1)进行正则化,并在100,000个SMILES的分块数据上以512个样本的mini-batch进行训练,基于验证损失采用早停策略。
- 采用状态保持的采样模型,通过将预测字符逐次反馈至网络,迭代生成新序列。
- 比较生成分子与训练集在分子量、logP、氢键供体/受体数、拓扑极性表面积等分子属性上的分布。
- 通过合成可及性(SA)评分和Wiley ChemPlanner的逆合成分析评估生成化合物的可行性。
实验结果
研究问题
- RQ1带有LSTM单元的RNN是否能够在无显式规则约束的情况下,学习从SMILES字符串生成化学上有效且新颖的分子?
- RQ2生成分子的分子属性分布在多大程度上与训练数据匹配?
- RQ3通过SA评分和逆合成规划评估,生成分子的合成可行性如何?
- RQ4生成分子在多大程度上代表真正的新颖性?是否存在对训练集的过拟合证据?
- RQ5能否通过筛选训练数据对模型进行调优,以生成具有特定属性谱的分子?
主要发现
- 对于片段样和药物样数据集,模型分别生成了63%和83%的训练集中未出现的新分子,表明尽管存在潜在过拟合,仍具有显著新颖性。
- 生成分子的分子属性分布(包括分子量、logP、氢键供体/受体数、可旋转键数和拓扑极性表面积)与训练集高度一致。
- 生成分子的合成可及性(SA)评分处于中等至较低范围,与目录化合物相当,表明具有较高的合成可行性。
- 使用Wiley ChemPlanner进行的逆合成分析成功为大多数生成化合物识别出可行的合成路线,但有两分子未能找到任何可行路线。
- 模型表现出过拟合迹象,因为大量生成分子在训练集中被发现,表明训练集与测试集在化学空间中可能过于相似。
- 模型生成具有期望属性谱分子的能力表明,可通过在表现优异的化合物上重新训练,实现计算机模拟药物发现中的迭代优化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。