QUICK REVIEW

[論文レビュー] Constrained Bayesian Optimization for Automatic Chemical Design

Ryan‐Rhys Griffiths, José Miguel Hernández-Lobato|arXiv (Cornell University)|Sep 16, 2017

Machine Learning in Materials Science参考文献 136被引用数 51

ひとこと要約

この論文は、VAEの潜在空間上でのベイズ最適化を制約付き最適化問題として再定義し、生成分子の妥当性と品質を高める。制約付き BO は、無制約のベースラインよりも薬物様分子を大幅に多く得られ、目的スコアも高くなる。

ABSTRACT

Automatic Chemical Design is a framework for generating novel molecules with optimized properties. The original scheme, featuring Bayesian optimization over the latent space of a variational autoencoder, suffers from the pathology that it tends to produce invalid molecular structures. First, we demonstrate empirically that this pathology arises when the Bayesian optimization scheme queries latent points far away from the data on which the variational autoencoder has been trained. Secondly, by reformulating the search procedure as a constrained Bayesian optimization problem, we show that the effects of this pathology can be mitigated, yielding marked improvements in the validity of the generated molecules. We posit that constrained Bayesian optimization is a good approach for solving this class of training set mismatch in many generative tasks involving Bayesian optimization over the latent space of a variational autoencoder.

研究の動機と目的

自動化された化学設計を動機づけ、トレーニングセットの不一致をデコードの無効性の原因として特定する。
デコードの妥当性を維持するための制約付きベイズ最適化の定式化を提案する。
制約を意識した獲得関数を使用することで分子の妥当性と新規性が向上することを示す。
薬物設計および材料設計タスク全体で薬物類似性と性質スコアの改善を示す。

提案手法

SMILESベースの変分オートエンコーダを用いて分子をエンコード/デコードする。
標準的な化学指標（logP, QED）とペナルティ（SA, 環ペナルティ）を組み合わせた目的関数を定義する。
制約付きベイズ最適化を形式化する：最大化 f(z) ただし Pr(C(z)) ≥ 1−δ。
獲得関数として Constraints付きの Expected Improvement（EIC）を使用する。
潜在点のデコード妥当性を予測する二項制約モデル（BNN）を訓練し、制約に利用する。
並列 Kriging-Believer BO とバッチサイズ50、20回の反復で性能を評価する。

実験結果

リサーチクエスチョン

RQ1潜在空間の探索を制約することは、無制約BOと比べてデコードされた分子の妥当性を改善するか？
RQ2制約付きBOは標準指標の下で生成された薬物様分子の品質と新規性にどのような影響を与えるか？
RQ3制約付きBOは、薬物発見を超えた材料設計の目的（例えば電力変換効率）へ一般化できるか？

主な発見

Objective	Baseline	Constrained
LogP Composite	36 ± 14	92 ± 4
QED Composite	14 ± 3	72 ± 10
QED	11 ± 2	79 ± 4

制約付きBOは試行の80%以上で薬物様分子へデコードできるのに対し、無制約ベースラインでは5%未満だった。
制約付きBOはより多くのユニークな分子を生み出し、薬物様指標（LogP総合、QED総合、QED）で高い目的スコアを達成した。
5つの分割で、制約付きBOの分子は検討対象の目的のトレーニングデータスコアの90〜100パーセンタイルにランク付けされた。
材料設計実験では、制約付きBOはPCEのトレーニングデータの90パーセンタイルを上回る平均スコアを生成した。
全体として、制約付きBOは妥当性を著しく向上させ、元の無制約アプローチと比較して分子品質も向上することが多い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。