QUICK REVIEW

[論文レビュー] Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy

Felix A. Faber, Luke D. Hutchinson|arXiv (Cornell University)|Feb 17, 2017

Machine Learning in Materials Science被引用数 11

ひとこと要約

本研究では、多様な分子表現と回帰器を用いて、有機分子の13種類の電子的およびエネルギー的性質を予測する高速な機械学習モデルを開発した。これらのモデルが実験値からの偏差において化学的精度未満の予測誤差を達成し、ハイブリッドDFTよりも一貫して優れた性能を示すことが示された。これは、実験的データまたは高精度な電子相関を考慮した量子力学的データで学習された場合、より高い精度に到達する可能性を示唆している。

ABSTRACT

We investigate the impact of choosing regressors and molecular representations for the construction of fast machine learning (ML) models of thirteen electronic ground-state properties of organic molecules. The performance of each regressor/representation/property combination is assessed using learning curves which report out-of-sample errors as a function of training set size with up to $\sim$117k distinct molecules. Molecular structures and properties at hybrid density functional theory (DFT) level of theory used for training and testing come from the QM9 database [Ramakrishnan et al, {\em Scientific Data} {\bf 1} 140022 (2014)] and include dipole moment, polarizability, HOMO/LUMO energies and gap, electronic spatial extent, zero point vibrational energy, enthalpies and free energies of atomization, heat capacity and the highest fundamental vibrational frequency. Various representations from the literature have been studied (Coulomb matrix, bag of bonds, BAML and ECFP4, molecular graphs (MG)), as well as newly developed distribution based variants including histograms of distances (HD), and angles (HDA/MARAD), and dihedrals (HDAD). Regressors include linear models (Bayesian ridge regression (BR) and linear regression with elastic net regularization (EN)), random forest (RF), kernel ridge regression (KRR) and two types of neural net works, graph convolutions (GC) and gated graph networks (GG). We present numerical evidence that ML model predictions deviate from DFT less than DFT deviates from experiment for all properties. Furthermore, our out-of-sample prediction errors with respect to hybrid DFT reference are on par with, or close to, chemical accuracy. Our findings suggest that ML models could be more accurate than hybrid DFT if explicitly electron correlated quantum (or experimental) data was available.

研究の動機と目的

分子表現と回帰器が電子的およびエネルギー的性質の機械学習モデルの精度に与える影響を評価すること。
機械学習モデルが実験値に対してハイブリッド密度汎関数理論（DFT）の誤差を下回る予測誤差を達成できるかどうかを評価すること。
機械学習モデルが基底状態の分子性質を化学的精度以上に予測できるかどうかを特定すること。
高精度で高速な予測を実現するための、分子表現と回帰器の最適な組み合わせを同定すること。
実験的または明示的に相関を考慮した量子力学的データといった高精度な基準データで学習した場合、機械学習モデルがDFTの精度を上回る可能性を検討すること。

提案手法

DFTで計算された性質を有する約117,000個の有機分子を含むQM9データベースを用いて、モデルを学習およびテストした。
複数の分子表現を評価：クーロン行列、ボックスオブボンズ、BAML、ECFP4、分子グラフ（MG）、および新規の分布ベースの変種（HD、HDA/MARAD、HDAD）。
多様な回帰器を適用：ベイズリッジ回帰（BR）、正則化付きエラスティックネット線形回帰（EN）、ランダムフォレスト（RF）、カーネルリッジ回帰（KRR）、グラフ畳み込みネットワーク（GC）、およびゲート付きグラフネットワーク（GG）。
学習曲線を用いて、訓練データサイズの関数としての外挿予測誤差を測定し、モデル性能の体系的比較を可能にした。
モデルの予測値をハイブリッドDFTの基準値と直接比較し、実験ベンチマークからの偏差を評価した。
予測誤差の定量的評価に、平均二乗誤差（RMSE）と化学的精度の閾値（熱力学的性質では1 kcal/mol、電子的性質では0.01 eV）を用いた。

実験結果

リサーチクエスチョン

RQ1DFTデータで学習した機械学習モデルが、実験値に対してハイブリッドDFTの誤差を下回る予測誤差を達成できるか？
RQ2どの分子表現と回帰器の組み合わせが、多様な電子的およびエネルギー的性質において最も高い精度の予測を実現するか？
RQ3分布ベースの表現（例：距離、角度、二面角のヒストグラム）は、標準的な記述子と比較して、モデル性能をどの程度向上させるか？
RQ4どの機械学習モデルも、研究された13種類の性質すべてについて、化学的精度の閾値未満の外挿予測誤差を達成できるか？
RQ5実験的または明示的に相関を考慮した量子力学的データといった高精度な基準データで学習した場合、機械学習モデルがDFTの精度を上回る可能性はどの程度か？

主な発見

すべての機械学習モデルが、ハイブリッドDFTの外挿予測誤差を実験値に対して下回った。
最も優れたモデルは、熱力学的性質では1 kcal/mol、電子的性質では0.01 eVの化学的精度未満の予測誤差を一貫して達成した。
グラフベースのモデル（GCおよびGG）と分布ベースの表現（例：HD、HDA/MARAD）の組み合わせが、大多数の性質で優れた性能を示した。
ベイズリッジ回帰のような線形モデルでさえ、分子グラフやヒストグラムなどの適切な表現と組み合わせることで、化学的精度未満の性能を達成した。
本研究では、実験的または高精度な電子相関を考慮した量子力学的データで学習した場合、機械学習モデルがハイブリッドDFTを上回る精度に到達できる可能性を数値的根拠で示した。
学習曲線により、予測誤差が小さな訓練データサイズで安定化することが示され、高いデータ効率性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。