Skip to main content
QUICK REVIEW

[論文レビュー] GAUCHE: A Library for Gaussian Processes in Chemistry

Ryan‐Rhys Griffiths, Leo Klarner|arXiv (Cornell University)|Dec 6, 2022
Mass Spectrometry Techniques and Applications被引用数 33
ひとこと要約

GAUCHEは分子表現(フィンガープリント、文字列、グラフ)のGPU対応ガウス過程カーネルを提供し、化学における回帰、不確実性量化、ベイズ最適化をサポートします。

ABSTRACT

We introduce GAUCHE, a library for GAUssian processes in CHEmistry. Gaussian processes have long been a cornerstone of probabilistic machine learning, affording particular advantages for uncertainty quantification and Bayesian optimisation. Extending Gaussian processes to chemical representations, however, is nontrivial, necessitating kernels defined over structured inputs such as graphs, strings and bit vectors. By defining such kernels in GAUCHE, we seek to open the door to powerful tools for uncertainty quantification and Bayesian optimisation in chemistry. Motivated by scenarios frequently encountered in experimental chemistry, we showcase applications for GAUCHE in molecular discovery and chemical reaction optimisation. The codebase is made available at https://github.com/leojklarner/gauche

研究の動機と目的

  • ガウス過程を用いて分子と化学反応の確率的モデリングを実現する。
  • 構造化された分子入力(グラフ、文字列、フィンガープリント)に対するGPU支援カーネルを提供する。
  • 確率的不確実性定量化と最適化を促進するため、GP/BOツールを既存ライブラリ(GPyTorch、BoTorch、RDKit)と統合する。
  • 多様な分子データセットに対する回帰、UQ、ベイズ最適化の性能を評価する。

提案手法

  • 分子表現(フィンガープリント、フラグメント、SMILES/SELFIES文字列、グラフ)に対するGPUベースのカーネル型GP回帰を実装する。
  • 文字列、フィンガープリント、グラフカーネルを組み込み、Tanimoto、SMILES文字列カーネル、GraKelグラフカーネルを含み、周辺尤度を介して学習可能なハイパーパラメータを持つ。
  • スケーラブルなGP学習とベイズ最適化ワークフローのためにGPyTorchとBoTorchと統合する。
  • 分子特性予測データセット(Photoswitch, ESOL, FreeSolv, Lipophilicity)および反応収率(Buchwald–Hartwig, Suzuki–Miyaura)でベンチマークを行う。
  • NLPDと関連指標を用いた不確実性定量化を評価し、ベイズニューラルネットワークおよび深層アンサンブルと比較する。

実験結果

リサーチクエスチョン

  • RQ1どの分子表現(フィンガープリント、文字列、グラフ)と対応するカーネルが、多様な化学タスクにおいて最も高い回帰精度を示すか?
  • RQ2GAUCHEのカーネルは分子データに対してどれだけ適切に校正された不確実性推定を提供するか?
  • RQ3GAUCHEカーネルを用いるGPベイズ最適化は、超低データ分子発見タスクでランダム探索を上回るか?
  • RQ4フォトスイッチと反応収率に対するBO性能において、グラフ、文字列、フィンガープリントカーネルはどう比較されるか?
  • RQ5化学空間における表現とタスクの結合がBOとUQ性能に与える影響は何か?

主な発見

GPモデルデータセットカーネル表現フォトスイッチESOLFreeSolvLipophilicity
TanimotofragprintsTanimotofragprints20.9±0.70.71±0.011.31±0.060.67±0.01
TanimotofingerprintsTanimotofingerprints23.4±0.81.01±0.011.93±0.090.76±0.01
TanimotofragmentsTanimotofragments26.3±0.80.91±0.011.49±0.050.80±0.01
Scalar ProductfragprintsScalar Productfragprints22.5±0.70.88±0.011.27±0.020.77±0.01
Scalar ProductfingerprintsScalar Productfingerprints24.8±0.81.17±0.011.93±0.070.84±0.01
Scalar ProductfragmentsScalar Productfragments36.6±1.01.15±0.011.63±0.030.97±0.01
SELFIESSELFIESSelfiesSELFIES----
SMILESSMILESString kernelSMILES24.8±0.70.66±0.011.31±0.010.68±0.01
WL Kernel (GraKel)graphWeisfeiler–Lehmangraph22.4±1.41.04±0.021.47±0.060.74±0.05
  • GP回帰性能はデータセットと表現に依存する。
  • 特定の性質予測タスクでは、文字列カーネルとグラフカーネルがフィンガープリントベースのカーネルを上回ることがある。
  • 不確実性推定(NLPD)は、データセット全体で回帰精度と概ね相関する。
  • 超低データ域(例:Photoswitchデータセット)でGAUCHEカーネルを用いたベイズ最適化はランダム探索を上回る。
  • BOの性能は回帰/ UQの品質と整合している:より良い回帰/ UQは対象化学タスクでのBO性能を高める可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。