[论文解读] SPT-NRTL: A physics-guided machine learning model to predict thermodynamically consistent activity coefficients
SPT-NRTL 是一种物理引导的机器学习模型,利用基于 SMILES 表示的变压器架构,预测浓度依赖的、热力学一致的活度系数。其在准确性上优于 UNIFAC 和 COSMO-RS,在水/乙醇和氯仿/n-己烷等混合物的气液平衡预测中达到接近实验精度,并在线提供 1 亿种混合物的 NRTL 参数,可直接用于过程模拟。
The availability of property data is one of the major bottlenecks in the development of chemical processes, often requiring time-consuming and expensive experiments or limiting the design space to a small number of known molecules. This bottleneck has been the motivation behind the continuing development of predictive property models. For the property prediction of novel molecules, group contribution methods have been groundbreaking. In recent times, machine learning has joined the more established property prediction models. However, even with recent successes, the integration of physical constraints into machine learning models remains challenging. Physical constraints are vital to many thermodynamic properties, such as the Gibbs-Duhem relation, introducing an additional layer of complexity into the prediction. Here, we introduce SPT-NRTL, a machine learning model to predict thermodynamically consistent activity coefficients and provide NRTL parameters for easy use in process simulations. The results show that SPT-NRTL achieves higher accuracy than UNIFAC in the prediction of activity coefficients across all functional groups and is able to predict many vapor-liquid-equilibria with near experimental accuracy, as illustrated for the exemplary mixtures water/ethanol and chloroform/n-hexane. To ease the application of SPT-NRTL, NRTL-parameters of 100 000 000 mixtures are calculated with SPT-NRTL and provided online.
研究动机与目标
- 解决化学过程开发中实验性质数据稀缺的瓶颈问题。
- 开发一种能够预测浓度依赖活度系数且具有热力学一致性的机器学习模型。
- 将物理约束(特别是吉布斯-杜海姆方程)整合到数据驱动模型中,以实现可靠的相平衡预测。
- 通过提供预计算的 NRTL 参数,实现模型在标准过程模拟软件中的直接应用。
- 将机器学习的预测能力从限制性活度系数扩展到完整的二元混合物行为。
提出的方法
- 基于变压器的深度学习模型(SPT)经过微调,可从 SMILES 字符串预测活度系数。
- 通过吉布斯-杜海姆方程对模型进行约束,以确保所有摩尔分数下的热力学一致性。
- 利用可微分的参数化方法,直接从模型输出预测 NRTL 参数(α, Aij, Bij)。
- 模型在包含实验数据和 COSMO-RS 参考数据的大规模浓度依赖活度系数数据库上进行训练。
- 多头注意力机制使模型能够捕捉复杂的分子相互作用和官能团贡献。
- 最终模型 SPT-NRTLFull 在训练集中未包含的混合物上进行验证,包括共沸体系。
实验结果
研究问题
- RQ1机器学习模型能否在保证热力学一致性的同时,预测浓度依赖的活度系数,并超越传统基团贡献方法?
- RQ2SPT-NRTL 对二元混合物(包括共沸体系)的气液平衡预测精度如何?
- RQ3该模型在训练数据之外的混合物上,尤其是水和羧酸等难处理组分上,泛化能力如何?
- RQ4将吉布斯-杜海姆方程等物理约束整合到神经网络架构中,是否能产生比无约束模型更可靠、更具泛化能力的预测结果?
- RQ5该模型能否在无需实验拟合的情况下,为大规模过程模拟生成高质量的 NRTL 参数?
主要发现
- 与 UNIFAC 相比,SPT-NRTL 在所有官能团上的活度系数预测平均绝对误差降低约 50%。
- 对于水和羧酸——以往具有挑战性的基团——其活度系数的平均绝对误差分别为 0.4 和 0.5(以 ln γ 计),仍显著低于 UNIFAC。
- 该模型对水/乙醇和氯仿/n-己烷混合物的气液平衡预测达到接近实验精度,正确捕捉了共沸点位置和行为。
- 预测结果的不确定性导致泡点/露点温度的最大偏差约为 1 K,对大多数工程应用而言可接受。
- SPT-NRTL 提供了 1 亿种混合物的 NRTL 参数,涵盖 10,000 种独特分子,可直接用于过程模拟软件。
- 该模型表明,物理引导的机器学习可可靠预测复杂热力学性质,同时保持与基本物理定律的一致性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。