QUICK REVIEW

[論文レビュー] Predicting Organic Reaction Outcomes with Weisfeiler-Lehman Network

Wengong Jin, Connor W. Coley|arXiv (Cornell University)|Sep 13, 2017

Machine Learning in Materials Science参考文献 14被引用数 190

ひとこと要約

tldr: Weisfeiler-Lehmanネットワークを用いるテンプレートなしのアプローチが反応中心を同定し候補生成物をランク付けし、USPTOデータセットで約84%と78%の精度を達成、テンプレートを上回り、およそ140倍速く動作する。

ABSTRACT

The prediction of organic reaction outcomes is a fundamental problem in computational chemistry. Since a reaction may involve hundreds of atoms, fully exploring the space of possible transformations is intractable. The current solution utilizes reaction templates to limit the space, but it suffers from coverage and efficiency issues. In this paper, we propose a template-free approach to efficiently explore the space of product molecules by first pinpointing the reaction center -- the set of nodes and edges where graph edits occur. Since only a small number of atoms contribute to reaction center, we can directly enumerate candidate products. The generated candidates are scored by a Weisfeiler-Lehman Difference Network that models high-order interactions between changes occurring at nodes across the molecule. Our framework outperforms the top-performing template-based approach with a 10\% margin, while running orders of magnitude faster. Finally, we demonstrate that the model accuracy rivals the performance of domain experts.

研究の動機と目的

あらかじめ定義された反応テンプレートを用いず、有機反応の結果を予測する課題に動機づけ、取り組む。
グラフ編集が発生する最小限の反応中心を特定し、探索空間を制約する。
化学的に実現可能な候補生成物を列挙し、真の生成物を選択するためにそれらをランク付けする。

提案手法

分子をラベル付きグラフとして表現し、反応を反応物から生成物へと変換するグラフ編集として定式化する。
Weisfeiler-Lehman Network (WLN) を用いて原子レベルの埋め込みを学習し、原子間反応性スコアを予測する。
反応中心への遠位化学効果を捉えるためにグローバルアテンション機構を組み込む。
上位K対の原子対を選択して反応中心を形成し、この中心内で実現可能な結合配置を列挙して候補を生成する。
反応物と候補の差ベクトル間の高次相互作用をモデル化する Weisfeiler-Lehman Difference Network (WLDN) を用いて候補生成物をランク付けする。
予測反応性に対する損失と候補のsoftmaxベースのランキング目的関数を組み合わせてエンドツーエンドで訓練する。

実験結果

リサーチクエスチョン

RQ1テンプレートなしのアプローチは、多様な有機反応に対して反応中心を効率的に同定できるか。
RQ2WLNベースの表現とアテンションは、正確な反応中心予測に必要な遠位効果を捕捉できるか。
RQ3予測された反応中心内で候補を列挙し、WLDNでランキングする手法は、カバレッジと精度の点でテンプレートベースの手法を上回るか。
RQ4大規模なUSPTO由来データセットに対して、テンプレートなし手法は速度とスケーラビリティの面でテンプレートベースのアプローチとどう比較されるか。

主な発見

グローバルWLNモデル（アテンション付き）はローカルモデルより反応中心の同定を改善し、カバレッジが高く（K=8でおおむね90%以上）、遠位試薬の影響を受ける中心の予測も改善する。
予測された反応中心を用いた候補生成は、（K=6で平均約60候補程度）のコンパクトな候補集合を生み出し、テンプレートベース手法に競合するカバレッジを示す一方、はるかに少ないテンプレートで済む。
WLDNはWLNをランキング精度で上回り、反応中心の差分間の高次相互作用が生成物のランキングを改善することを示す。
USPTO-15Kでは、WLDN(*)が83.9%のP@1、93.2%のP@3、95.2%のP@5を達成; USPTOでは、WLNより高いカバレッジとランキングを維持する。
人間評価では80反応に対して69.1%の精度を示し、研究における平均的な化学者の性能を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。