Skip to main content
QUICK REVIEW

[論文レビュー] Gaussian Process Molecule Property Prediction with FlowMO

Henry B. Moss, Ryan‐Rhys Griffiths|arXiv (Cornell University)|Oct 2, 2020
Computational Drug Discovery Methods参考文献 41被引用数 25
ひとこと要約

FlowMO は、Tanimoto カーネルおよびストリングカーネルを用いたガウス過程を用いた分子性質予測のためのオープンソース Python ライブラリであり、良好にキャリブレートされた不確実性推定を可能にする。小規模なデータセットにおいてディープラーニングモデルと同等の予測性能を達成するとともに、特にドラッグディスcoveryにおけるアクティブラーニングおよびベイジアン最適化において優れた不確実性キャリブレーションを示す。

ABSTRACT

We present FlowMO: an open-source Python library for molecular property prediction with Gaussian Processes. Built upon GPflow and RDKit, FlowMO enables the user to make predictions with well-calibrated uncertainty estimates, an output central to active learning and molecular design applications. Gaussian Processes are particularly attractive for modelling small molecular datasets, a characteristic of many real-world virtual screening campaigns where high-quality experimental data is scarce. Computational experiments across three small datasets demonstrate comparable predictive performance to deep learning methods but with superior uncertainty calibration.

研究の動機と目的

  • 初期段階のドラッグディスcoveryで一般的な小規模で高品質なデータセットにおける信頼性のある不確実性評価の課題に対処すること。
  • GPflow および RDKit を用いて分子表現(SMILES およびフィンガープrint)と統合された、使いやすくオープンソースのライブラリを開発すること。
  • ベンチマーク用分子データセット上で、ガウス過程とベイジアンニューラルネットワークおよびアテンショナルニューラルプロセスの不確実性キャリブレーションを比較すること。
  • 良好にキャリブレートされた予測分布を介して、ベイジアン最適化およびアクティブラーニングの効率的応用を可能にすること。

提案手法

  • FlowMO は、それぞれ ECFP フィンガープrint と SMILES 文字列間の類似性を測定するための Tanimoto カーネルおよびサブシーケンスストリングカーネル(SSK)を実装している。
  • 正確な推論を用いたガウス過程により、分子性質の平均および分散を伴う予測分布を生成している。
  • GPU アクセeleration を活用してカーネル評価を高速化し、小規模から中規模のデータセットにおけるスケーラビリティを向上させている。
  • 不確実性キャリブレーションは、交差検証的予測 p-値スコア関数を用いて評価されており、C(q) = q が完全なキャリブレーションを示す。
  • ハイパーパramータは BNN および ANP ベースラインに対してグリッドサーチを用いてチューニングされ、20回のランダムな 80:10:10 の分割(GP は 90:10)でモデルが訓練および評価されている。
  • 良好にキャリブレートされた不確実性推定を介して、ベイジアン最適化手法の直接適用が可能である。

実験結果

リサーチクエスチョン

  • RQ1ガウス過程の不確実性キャリブレーションは、分子性質予測においてベイジアンニューラルネットワークおよびアテンショナルニューラルプロセスと比較してどのように異なるか?
  • RQ2Tanimoto カーネルおよびストリングカーネルを用いたガウス過程は、小規模な分子データセットにおいて競争力のある予測性能を達成できるか?
  • RQ3分子表現の選択(SMILES 対フィンガープリント)は、予測性能および不確実性キャリブレーションに顕著な影響を与えるか?
  • RQ4FlowMO は、より優れた不確実性推定のおかげで、分子設計におけるより信頼性の高いアクティブラーニングおよびベイジアン最適化を可能にするか?

主な発見

  • SMILES 文字列を用いた SSK GP は、Photoswitch および FreeSolv データセットでフィンガープリントを用いた TK GP を上回り、溶解度および水和化ギブス自由エネルギー予測において SMILES が有効であることを示している。
  • ECFP フィンガープリントを用いた TK GP は、ESOL データセットで最高の性能を示し、水溶性予測においてフィンガープリントがより情報量が多いことを示唆している。
  • Photoswitch および FreeSolv データセットでは、SSK GP がほぼ完璧なキャリブレーション(C(q) ≈ q)を達成しており、BNN や ANP よりも優れた不確実性キャリブレーションを示している。
  • FreeSolv データセットでは、SSK GP は RMSE 1.29 ± 0.22 を達成し、MoleculeNet ベースライン(1.15 ± 0.02)と同等の性能であり、ANP(2.65 ± 0.47)よりも顕著に優れていた。
  • 拡張された SMILES-X モデルは FreeSolv で全モデル中最も優れた性能(RMSE 0.81 ± 0.22)を示したが、大幅な計算コストを要したため、性能と効率性のトレードオフが浮き彫りになった。
  • TK GP は FreeSolv で RMSE 1.85 ± 0.10 を達成し、BNN(1.92 ± 0.20)および ANP(2.65 ± 0.47)を上回り、より優れた予測精度およびキャリブレーションを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。