[论文解读] SMILES Enumeration as Data Augmentation for Neural Network Modeling of Molecules
该论文通过枚举非规范的 SMILES 来训练基于 LSTM 的 QSAR 模型,数据增强提高预测性能,并使对每个分子枚举的 SMILES 的预测平均化更有效。
Simplified Molecular Input Line Entry System (SMILES) is a single line text representation of a unique molecule. One molecule can however have multiple SMILES strings, which is a reason that canonical SMILES have been defined, which ensures a one to one correspondence between SMILES string and molecule. Here the fact that multiple SMILES represent the same molecule is explored as a technique for data augmentation of a molecular QSAR dataset modeled by a long short term memory (LSTM) cell based neural network. The augmented dataset was 130 times bigger than the original. The network trained with the augmented dataset shows better performance on a test set when compared to a model built with only one canonical SMILES string per molecule. The correlation coefficient R2 on the test set was improved from 0.56 to 0.66 when using SMILES enumeration, and the root mean square error (RMS) likewise fell from 0.62 to 0.55. The technique also works in the prediction phase. By taking the average per molecule of the predictions for the enumerated SMILES a further improvement to a correlation coefficient of 0.68 and a RMS of 0.52 was found.
研究动机与目标
- 动机:利用 SMILES 多样性为小分子 QSAR 数据集提供数据增强。
- 展示对 SMILES 的枚举如何改善神经网络训练稳定性和泛化能力。
- 在训练/测试设置下,比较规范化(canonical)SMILES 与枚举 SMILES 的预测性能。
- 展示对同一分子进行枚举 SMILES 预测取平均后的好处。
提出的方法
- 通过随机化原子顺序并在禁用规范 SMILES 的情况下使用 RDKit,为每个分子生成多个 SMILES。
- 构建固定长度的一热编码表示的 SMILES 字符串。
- 使用 Keras/Theano 后端训练基于 LSTM 的 QSAR 模型,包含有枚举 SMILES 与无枚举两种。
- 在定义的空间内通过贝叶斯优化(高斯过程)进行超参数优化。
- 在训练/测试设置下比较仅使用规范 SMILES 与枚举 SMILES 的数据集的性能。
- 计算并比较预测的 R^2 与 RMS 等指标;还评估对每个分子枚举预测取平均后的结果。
实验结果
研究问题
- RQ1在数据增强的 SMILES 枚举是否相较于仅使用规范 SMILES 能提升 QSAR 模型的性能?
- RQ2在训练和测试集中,使用枚举 SMILES 训练对对非规范 SMILES 的泛化能力有何影响?
- RQ3对预测准确性的影响:对枚举 SMILES 进行预测取平均有哪些影响?
- RQ4在 LSTM-QSAR 模型中使用规范 SMILES 与枚举 SMILES 时,最优超参数是什么?
- RQ5该数据增强在训练和预测阶段都有益吗?
主要发现
| 数据集 | 规范训练 R2 | 规范训练 RMS | 规范测试 R2 | 规范测试 RMS | 枚举训练 R2 | 枚举训练 RMS | 枚举测试 R2 | 枚举测试 RMS |
|---|---|---|---|---|---|---|---|---|
| Canonical | 0.78 | 0.46 | 0.56 | 0.62 | 0.85 | 0.39 | 0.63 | 0.56 |
| Enumerated | 0.25 | 0.88 | 0.26 | 0.84 | 0.87 | 0.37 | 0.66 | 0.55 |
- 枚举 SMILES 的数据集使训练数据大约增加了 130 倍(训练集规范 SMILES 602 vs 枚举 SMILES 79,143;测试集 71 规范 vs 9,412 枚举)。
- 最佳规范模型的测试 R^2 = 0.56 且 RMS = 0.62;最佳枚举模型的测试 R^2 = 0.66 且 RMS = 0.55。
- 使用对每个分子枚举 SMILES 求平均的测试集预测得到 R^2 = 0.68 且 RMS = 0.52。
- 对枚举数据训练的枚举模型的训练 R^2 更高(0.87)且训练 RMS 更低(0.37),相比之下规范模型为(R^2 0.85,RMS 0.39)。
- 最坏情况发生在将枚举 SMILES 与规范训练模型结合使用时(R^2 = 0.26,RMS = 0.84)。
- 使用枚举数据进行训练由于样本量更大,收敛更少噪声、更新更有效。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。