[论文解读] SMILES2Vec: An Interpretable General-Purpose Deep Neural Network for Predicting Chemical Properties
SMILES2Vec 是一个深度 RNN,直接从 SMILES 学习特征以预测化学性质,具有可解释的解释遮罩,并且在多样任务中能够超越基于工程特征的 MLP 模型。
Chemical databases store information in text representations, and the SMILES format is a universal standard used in many cheminformatics software. Encoded in each SMILES string is structural information that can be used to predict complex chemical properties. In this work, we develop SMILES2vec, a deep RNN that automatically learns features from SMILES to predict chemical properties, without the need for additional explicit feature engineering. Using Bayesian optimization methods to tune the network architecture, we show that an optimized SMILES2vec model can serve as a general-purpose neural network for predicting distinct chemical properties including toxicity, activity, solubility and solvation energy, while also outperforming contemporary MLP neural networks that uses engineered features. Furthermore, we demonstrate proof-of-concept of interpretability by developing an explanation mask that localizes on the most important characters used in making a prediction. When tested on the solubility dataset, it identified specific parts of a chemical that is consistent with established first-principles knowledge with an accuracy of 88%. Our work demonstrates that neural networks can learn technically accurate chemical concept and provide state-of-the-art accuracy, making interpretable deep neural networks a useful tool of relevance to the chemical industry.
研究动机与目标
- 利用 SMILES 字符串在不使用手工特征的情况下预测化学性质。
- 开发一个用于多种性质(毒性、活性、溶解度、溶剂化能)的通用深度神经网络。
- 通过对解释遮罩提供可解释性,局部化 SMILES 中的重要字符。
- 证明贝叶斯优化能为基于 SMILES 的预测得到有效的架构。
提出的方法
- 将 SMILES 字符串表示为输入到深度 RNN(SMILES2Vec)的序列,以学习预测特征。
- 在包括毒性、活性、溶解度与溶剂化能等多样属性数据集上进行训练与评估。
- 与使用工程特征的多层感知机(MLP)进行性能对比。
- 使用贝叶斯优化来调整网络架构。
- 引入解释遮罩以定位对预测有影响的 SMILES 字符,并验证可解释性(在溶解度相关解释上达到 88% 的准确性)。
实验结果
研究问题
- RQ1SMILES2Vec 是否能够直接从 SMILES 学习出用于多样化化学性质的准确预测特征?
- RQ2经贝叶斯优化的 SMILES2Vec 架构是否优于使用工程特征的 MLP 基线?
- RQ3可解释性遮罩是否能可靠地识别驱动预测的化学有意义的子结构?
- RQ4在一个溶解度数据集上验证化学知识时,该解释遮罩的准确性有多高(报告 88% 的准确性)?
主要发现
- 优化后的 SMILES2Vec 模型可作为一种通用神经网络,用于预测毒性、活性、溶解度和溶剂化能。
- SMILES2Vec 的性能超过依赖工程特征的当代 MLP 神经网络。
- 解释遮罩通过定位参与预测的重要 SMILES 字符来显示可解释性。
- 在溶解度数据集上,遮罩识别出相关的化学部分,准确度为 88%,与第一性原理知识一致。
- 本研究表明神经网络可以在达到最先进准确度的同时学习化学上有意义的概念。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。