[论文解读] CheMixNet: Mixed DNN Architectures for Predicting Chemical Properties using Multiple Molecular Representations
CheMixNet 提出了一种新颖的混合深度神经网络架构,通过联合利用 SMILES 序列和 MACCS 分子指纹来预测化学性质,在六个数据集上均优于最先进模型——在包含 230 万个样本的哈佛清洁能源项目(Harvard Clean Energy Project)数据集上实现了 0.24% 的 MAPE,通过在多输入框架中结合序列建模(基于 RNN/CNN)与基于向量的学习,实现了卓越性能。
SMILES is a linear representation of chemical structures which encodes the connection table, and the stereochemistry of a molecule as a line of text with a grammar structure denoting atoms, bonds, rings and chains, and this information can be used to predict chemical properties. Molecular fingerprints are representations of chemical structures, successfully used in similarity search, clustering, classification, drug discovery, and virtual screening and are a standard and computationally efficient abstract representation where structural features are represented as a bit string. Both SMILES and molecular fingerprints are different representations for describing the structure of a molecule. There exist several predictive models for learning chemical properties based on either SMILES or molecular fingerprints. Here, our goal is to build predictive models that can leverage both these molecular representations. In this work, we present CheMixNet -- a set of neural networks for predicting chemical properties from a mixture of features learned from the two molecular representations -- SMILES as sequences and molecular fingerprints as vector inputs. We demonstrate the efficacy of CheMixNet architectures by evaluating on six different datasets. The proposed CheMixNet models not only outperforms the candidate neural architectures such as contemporary fully connected networks that uses molecular fingerprints and 1-D CNN and RNN models trained SMILES sequences, but also other state-of-the-art architectures such as Chemception and Molecular Graph Convolutions.
研究动机与目标
- 通过数据驱动的深度学习方法加速性质预测,解决材料发现中的瓶颈问题。
- 克服仅使用单一表示方式(如仅 SMILES 或仅指纹)的局限性,这些方法无法捕捉互补的结构与指纹特征。
- 开发一个统一的深度学习框架,整合序列型(SMILES)与向量型(指纹)分子表示,以提升预测性能。
- 在大规模与小规模数据集上,证明模型在分类与回归等多样化化学性质预测任务中的泛化能力。
- 建立多表示学习在分子性质预测中的新基准,并开源代码以供社区采用。
提出的方法
- 采用多输入单输出(MISO)深度神经网络架构,处理两种不同的分子表示:SMILES 作为序列文本,MACCS 指纹作为固定长度的位向量。
- 使用一维卷积神经网络与循环神经网络(CNN/RNN)从 SMILES 序列中提取分层特征,捕捉局部与长程结构模式。
- 应用全连接(FC)层学习 MACCS 指纹中的高层预设特征,这些特征编码了结构片段与子结构信息。
- 在最终回归或分类头之前,通过拼接方式融合来自两个分支的中间表示。
- 通过在多个数据集(包括 CEP(230 万个样本)与 MoleculeNet 基准)上进行广泛的超参数调优来优化模型架构。
- 采用标准深度学习训练协议,结合早停与学习率调度策略,以确保收敛性与泛化能力。
实验结果
研究问题
- RQ1在单一深度学习模型中结合 SMILES 序列与分子指纹,是否能相比仅使用一种表示方式的模型,提升化学性质预测的准确性?
- RQ2为不同输入类型(序列 vs. 向量)采用不同神经网络架构(如 CNN、RNN)是否能增强特征学习与模型性能?
- RQ3CheMixNet 在多样化化学性质预测任务中,相较于最先进模型(如 Chemception 与 ConvGraph)的表现如何?
- RQ4混合输入架构在不同类型数据集(大规模 vs. 小规模,分类 vs. 回归)与不同化学性质类型上的泛化能力如何?
- RQ5混合表示带来的性能提升是源于输入多样性,还是源于为每种表示设计专用网络的架构设计?
主要发现
- 在哈佛清洁能源项目(CEP)数据集上,CheMixNet 实现了 0.24% 的平均绝对百分比误差(MAPE),显著优于仅使用 SMILES 的 CNN-RNN 基线模型(0.43% MAPE)。
- 在 MoleculeNet 基准测试中,CheMixNet 在全部五个数据集上均优于所有对比模型(包括 Chemception、ConvGraph 与全连接网络),涵盖分类任务(HIV、Tox21)与回归任务(FreeSolv、ESOL)。
- 在 Tox21 与 HIV 分类任务中,全连接模型表现最佳,但 CheMixNet 的混合架构(如 CNN-RNN*FC)仍优于除 FC 外的所有模型,展现出强大的泛化能力。
- CNN-RNN*FC 变体在 FreeSolv 的两个数据集上表现最佳,而 RNN*FC 在 ESOL 回归数据集上优于其他模型,表明不同混合架构在不同任务中具有特定优势。
- CheMixNet 在所有任务中均持续优于单一表示模型(如仅在 SMILES 上使用 RNN 或仅在指纹上使用 FC),证明联合学习多种表示可获得更优结果。
- 该模型的架构在多种化学性质类型(如溶解度、毒性、带隙)上均表现出良好泛化能力,表明其在材料科学与药物发现领域具有广泛适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。