[论文解读] Analyzing Learned Molecular Representations for Property Prediction
本文通过一种新颖的定向 MPNN(D-MPNN),使用基于键的消息传递,将学习的分子表示与固定描述子进行对比,在公开数据集和私有数据集上显示出强劲的性能,并强调基于支架的划分以实现更稳健的泛化。
Advancements in neural machinery have led to a wide range of algorithmic solutions for molecular property prediction. Two classes of models in particular have yielded promising results: neural networks applied to computed molecular fingerprints or expert-crafted descriptors, and graph convolutional neural networks that construct a learned molecular representation by operating on the graph structure of the molecule. However, recent literature has yet to clearly determine which of these two methods is superior when generalizing to new chemical space. Furthermore, prior research has rarely examined these new models in industry research settings in comparison to existing employed models. In this paper, we benchmark models extensively on 19 public and 16 proprietary industrial datasets spanning a wide variety of chemical endpoints. In addition, we introduce a graph convolutional model that consistently matches or outperforms models using fixed molecular descriptors as well as previous graph neural architectures on both public and proprietary datasets. Our empirical findings indicate that while approaches based on these representations have yet to reach the level of experimental reproducibility, our proposed model nevertheless offers significant improvements over models currently used in industrial workflows.
研究动机与目标
- 评估学习的分子表示与传统指纹/描述符在性质预测中的比较。
- 开发并评估一种基于图的模型(D-MPNN),以解决在新化学空间中的泛化问题。
- 将固定描述符特征与学习表示集成,以提高准确性和鲁棒性。
- 在公开数据集和大型专利/工业数据集上评估模型,以衡量其在现实世界中的适用性。
- 研究数据划分策略(基于支架与随机划分)及超参数优化对性能的影响。
提出的方法
- 引入一个定向 MPNN,它沿有向键而非原子传递信息以减少来回跳跃(totters)。
- 将基于键的消息传递与将信息汇聚为一个分子表示的读出结合起来。
- 在读出阶段用 RDKit 派生的200个全局分子特征来增强学习表示。
- 应用贝叶斯优化来调整超参数(深度、隐藏维度、层数、 dropout)。
- 使用集成来提高预测性能;同时报告单模型和集成的结果。
- 在分子图上进行端到端训练,执行有监督的性质预测任务。
实验结果
研究问题
- RQ1在多样数据集上,基于图的学习表示(D-MPNN)是否优于固定指纹/描述符?
- RQ2基于支架的数据划分如何影响泛化和模型排序,与随机划分相比?
- RQ3将学习表示与固定描述符特征结合是否能提高预测准确性和鲁棒性?
- RQ4超参数优化和集合方法对公开和私有数据集上的模型性能有何影响?
- RQ5与最先进基线相比,学习表示在工业基准上的泛化程度如何?
主要发现
- 基于键的消息传递的 D-MPNN 在公开和专有数据集上始终可以达到或超越基于描述符的模型以及先前的图模型。
- 混合模型(学习表示+固定描述符)比单独的任一方法都具有更高的性能和更好的泛化。
- 基于支架的划分提供了更真实的泛化评估,并且更接近工业中使用的时间性拆分。
- 通过贝叶斯方法进行超参数优化显著提升性能;集成进一步带来收益。
- 相当数量的数据集显示 D-MPNN 的结果与 MoleculeNet 基线和 Mayr 等人的模型相当甚至更优;在回归任务以及许多分类数据集上尤其强劲。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。