Skip to main content
QUICK REVIEW

[论文解读] Understanding the language of molecules: Predicting pure component parameters for the PC-SAFT equation of state from SMILES

Benedikt Winter, Philipp Rehner|arXiv (Cornell University)|Sep 21, 2023
Machine Learning in Materials Science被引用 8
一句话总结

一个自然语言处理模型(SPT-PC-SAFT)直接从 SMILES 预测 PC-SAFT 的纯组分参数,并使用 PC-SAFT 方程来计算蒸气压和液密度,在端到端的实验数据训练下保持参数的物理含义并在多样分子中实现高精度。

ABSTRACT

A major bottleneck in developing sustainable processes and materials is a lack of property data. Recently, machine learning approaches have vastly improved previous methods for predicting molecular properties. However, these machine learning models are often not able to handle thermodynamic constraints adequately. In this work, we present a machine learning model based on natural language processing to predict pure-component parameters for the perturbed-chain statistical associating fluid theory (PC-SAFT) equation of state. The model is based on our previously proposed SMILES-to-Properties-Transformer (SPT). By incorporating PC-SAFT into the neural network architecture, the machine learning model is trained directly on experimental vapor pressure and liquid density data. Combining established physical modeling approaches with state-of-the-art machine learning methods enables high-accuracy predictions across a wide range of pressures and temperatures, while maintaining the physical meaning of PC-SAFT parameters. SPT-PCSAFT demonstrates exceptional prediction accuracy even for complex molecules with various functional groups, outperforming traditional group contribution methods by a factor of four in the mean average percentage deviation. Moreover, SPT-PCSAFT captures the behavior of stereoisomers without any special consideration. To facilitate the application of our model, we provide predicted PC-SAFT parameters of more than 13645 components, making PC-SAFT accessible to all researchers.

研究动机与目标

  • 推动对可持续材料与工艺的热物性属性的快速、物理基础预测。
  • 开发一个端到端的 ML 模型,直接从 SMILES 预测 PC-SAFT 参数并保留物理含义。
  • 将 PC-SAFT 集成到神经网络中,用实验蒸气压和液密度数据进行训练。
  • 将先前的 SMILES-to-Properties 框架扩展,支持隐式、方程状态方程的计算。

提出的方法

  • 使用 SMILES-to-Properties-Transformer (SPT) 架构,采用解码器为主的 transformer 处理 SMILES 输入。
  • 将 PC-SAFT 状态方程加入模型头,将预测的参数在给定温度(以及压力)下转化为 p_sat 和 rho_L。
  • 预测六个辅助 PC-SAFT 参数以及联系与极性可能性,以保持参数的物理含义。
  • 使用 sigmoid 派生的可能性从辅助输出中计算极性和关联参数,并据此设定非极性/非关联组分。
  • 通过在 PyTorch 中实现 Helmholtz 能量和牛顿步求解,保持完全连接的计算图以进行可微训练。
  • 在实验蒸气压和液密度数据上进行端到端训练,并采用数据清洗与交叉验证策略。

实验结果

研究问题

  • RQ1SMILES 基于 NLP 模型能否直接从分子结构准确预测 PC-SAFT 的纯组分参数?
  • RQ2将 PC-SAFT 集成到 ML 模型中是否能保持参数的物理意义并实现对复杂分子与立体异构体的鲁棒外推?
  • RQ3在端到端对实验数据进行训练的情况下,针对蒸气压和液密度在多样数据集上的预测精度(如 APD)是多少?

主要发现

  • SPT-PC-SAFT 通过预测 PC-SAFT 参数并在模型内使用它们来计算 p_sat 与 rho_L,从而实现了高预测性能。
  • 在蒸气压的验证中,该模型在 870 个组分上的平均 APD 为 13.5,中位数 APD 为 8.7。
  • 该方法保持了 PC-SAFT 参数的物理意义,包括通过学习的可能性对关联与极性相互作用进行条件处理。
  • 该模型对具有不同官能团的分子表现出鲁棒性,并且能够在没有特殊处理的情况下区分立体异构体。
  • 训练利用来自多数据库的数据并采用数据清洗策略,在八个分割和基于结构-分子分割的交叉验证中进行评估。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。