Skip to main content
QUICK REVIEW

[論文レビュー] Understanding the language of molecules: Predicting pure component parameters for the PC-SAFT equation of state from SMILES

Benedikt Winter, Philipp Rehner|arXiv (Cornell University)|Sep 21, 2023
Machine Learning in Materials Science被引用数 8
ひとこと要約

NLPモデル(SPT-PC-SAFT)はSMILESから直接PC-SAFT純物質パラメータを予測し、PC-SAFT方程式を用いて蒸気圧と液密度を計算します。実験データでエンドツーエンドに訓練され、パラメータの物理的意味を保持し、多様な分子に対して高精度を達成します。

ABSTRACT

A major bottleneck in developing sustainable processes and materials is a lack of property data. Recently, machine learning approaches have vastly improved previous methods for predicting molecular properties. However, these machine learning models are often not able to handle thermodynamic constraints adequately. In this work, we present a machine learning model based on natural language processing to predict pure-component parameters for the perturbed-chain statistical associating fluid theory (PC-SAFT) equation of state. The model is based on our previously proposed SMILES-to-Properties-Transformer (SPT). By incorporating PC-SAFT into the neural network architecture, the machine learning model is trained directly on experimental vapor pressure and liquid density data. Combining established physical modeling approaches with state-of-the-art machine learning methods enables high-accuracy predictions across a wide range of pressures and temperatures, while maintaining the physical meaning of PC-SAFT parameters. SPT-PCSAFT demonstrates exceptional prediction accuracy even for complex molecules with various functional groups, outperforming traditional group contribution methods by a factor of four in the mean average percentage deviation. Moreover, SPT-PCSAFT captures the behavior of stereoisomers without any special consideration. To facilitate the application of our model, we provide predicted PC-SAFT parameters of more than 13645 components, making PC-SAFT accessible to all researchers.

研究の動機と目的

  • 持続可能な材料とプロセスの熱物性予測を迅速かつ物理的に根拠づけて推進する。
  • SMILESから直接PC-SAFTパラメータを予測し、物理的意味を保持するエンドツーエンドMLモデルを開発する。
  • 実験的蒸気圧と液密度データで訓練するため、ニューラルネットワークにPC-SAFTを組み込み、パラメータを学習する。
  • 前のSMILES〜プロパティフレームワークを拡張し、暗黙の状態方程式計算を扱えるようにする。

提案手法

  • SMILES-to-Properties-Transformer (SPT) アーキテクチャを使用し、デコーダーのみのトランスフォーマーでSMILES入力を処理する。
  • モデルヘッドにPC-SAFT状態方程式を組み込み、予測パラメータを given T(および p) での p_sat と rho_L に翻訳する。
  • 6つの補助的PC-SAFTパラメータと結合・極性の尤度を予測して、パラメータの物理的意味を保持する。
  • 補助出力から極性・結合性の純物質パラメータをsigmoid派生の尤度で計算し、非極性/非結合性成分を適切に設定する。
  • ヘルムホルツエネルギーとニュートン法解をPyTorchで実装して微分可能な訓練を維持し、完全に結合された計算グラフを保持する。
  • 実験的蒸気圧と液密度データでエンドツーエンドに訓練し、データクリーニングとクロスバリデーション戦略を採用する。

実験結果

リサーチクエスチョン

  • RQ1SMILESに基づくNLPモデルは分子構造から直接PC-SAFT純物質パラメータを正確に予測できるのか?
  • RQ2PC-SAFTをMLモデルに組み込むことはパラメータの物理的意味を保持し、立体異性体を含む複雑な分子への頑健な推定を可能にするのか?
  • RQ3実験データでエンドツーエンドに訓練した場合、さまざまなデータセットで蒸気圧と液密度の予測精度(例:APD)はどの程度か?

主な発見

  • SPT-PC-SAFTはPC-SAFTパラメータを予測し、それらをモデル内で用いてp_satとrho_Lを計算することで高い予測性能を達成する。
  • 蒸気圧の検証では、870成分に対して平均APDが13.5、中央値APDが8.7を報告する。
  • PC-SAFTパラメータの物理的意味を維持し、結合・極性相互作用は学習された尤度で条件付きに扱われる。
  • モデルはさまざまな官能基を持つ分子に対して頑健性を示し、立体異性体を特別な処理なしに識別できる。
  • 学習は複数データベースのデータとデータクリーニング戦略を活用し、8分割のクロスバリデーションと構造-分子ベースの分割を実施する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。