Skip to main content
QUICK REVIEW

[论文解读] Gaussian Process Molecule Property Prediction with FlowMO

Henry B. Moss, Ryan‐Rhys Griffiths|arXiv (Cornell University)|Oct 2, 2020
Computational Drug Discovery Methods参考文献 41被引用 25
一句话总结

FlowMO 是一个用于分子性质预测的开源 Python 库,采用高斯过程结合 Tanimoto 核和字符串核,能够实现校准良好的不确定性估计。在小样本数据集上,其预测性能与深度学习模型相当,同时在不确定性校准方面表现更优,尤其适用于药物发现中的主动学习和贝叶斯优化。

ABSTRACT

We present FlowMO: an open-source Python library for molecular property prediction with Gaussian Processes. Built upon GPflow and RDKit, FlowMO enables the user to make predictions with well-calibrated uncertainty estimates, an output central to active learning and molecular design applications. Gaussian Processes are particularly attractive for modelling small molecular datasets, a characteristic of many real-world virtual screening campaigns where high-quality experimental data is scarce. Computational experiments across three small datasets demonstrate comparable predictive performance to deep learning methods but with superior uncertainty calibration.

研究动机与目标

  • 为解决早期药物发现中常见且高质量的小型数据集在分子性质预测中可靠不确定性量化的问题。
  • 开发一个用户友好、开源的库,通过 GPflow 和 RDKit 集成高斯过程与分子表征(SMILES 和指纹)。
  • 在基准分子数据集上,比较高斯过程与贝叶斯神经网络和注意力神经过程的不确定性校准性能。
  • 通过校准良好的预测分布,实现贝叶斯优化和主动学习在分子设计中的高效应用。

提出的方法

  • FlowMO 分别使用 Tanimoto 核和子序列字符串核(SSK)来衡量 ECFP 指纹与 SMILES 字符串之间的相似性。
  • 采用具有精确推断的高斯过程,生成分子性质的均值和方差预测分布。
  • 利用 GPU 加速核计算,提升小到中等规模数据集的可扩展性。
  • 通过交叉验证的预测 p 值评分函数评估不确定性校准,其中 C(q) = q 表示完美校准。
  • 模型在 20 组随机划分的 80:10:10 数据集上进行训练和评估(高斯过程使用 90:10),贝叶斯神经网络和注意力神经过程基线模型的超参数通过网格搜索调优。
  • 框架通过校准良好的不确定性估计,支持贝叶斯优化方法的直接应用。

实验结果

研究问题

  • RQ1在分子性质预测中,高斯过程的不确定性校准性能与贝叶斯神经网络和注意力神经过程相比如何?
  • RQ2结合 Tanimoto 核和字符串核的高斯过程能否在小分子数据集上实现具有竞争力的预测性能?
  • RQ3分子表征方式的选择(SMILES 与指纹)是否显著影响预测性能和不确定性校准?
  • RQ4由于更优的不确定性估计,FlowMO 是否能提升分子设计中主动学习和贝叶斯优化的可靠性?

主要发现

  • 在 Photoswitch 和 FreeSolv 数据集上,SSK GP(使用 SMILES 字符串)的表现优于 TK GP(使用指纹),表明 SMILES 在溶解度和水合自由能预测中具有有效性。
  • 在 ESOL 数据集上,TK GP 取得了最佳性能,表明指纹在水溶性预测中更具信息量。
  • 在 Photoswitch 和 FreeSolv 数据集上,SSK GP 实现了近乎完美的校准(C(q) ≈ q),其不确定性校准性能优于 BNN 和 ANP。
  • 在 FreeSolv 数据集上,SSK GP 的 RMSE 为 1.29 ± 0.22,与 MoleculeNet 基线模型(1.15 ± 0.02)相当,且显著优于 ANP(2.65 ± 0.47)。
  • 增强版 SMILES-X 模型在 FreeSolv 上表现优于所有其他模型(RMSE 0.81 ± 0.22),但计算成本显著增加,凸显了性能与效率之间的权衡。
  • 在 FreeSolv 数据集上,TK GP 的 RMSE 为 1.85 ± 0.10,优于贝叶斯神经网络(1.92 ± 0.20)和 ANP(2.65 ± 0.47),表明其具备更优的预测准确性和校准能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。