Skip to main content
QUICK REVIEW

[論文レビュー] Retrosynthesis Prediction with Conditional Graph Logic Network

Hanjun Dai, Chengtao Li|arXiv (Cornell University)|Jan 6, 2020
Machine Learning in Materials Science被引用数 45
ひとこと要約

本論文はConditional Graph Logic Network (GLN) を紹介する。これはグラフニューラルネットワークに基づく確率モデルで、 retrosynthesis テンプレートが適用される時を学習し、階層的サンプリングで効率的、解釈可能な予測を提供し、単一步の retrosynthesis 精度で最先端を達成する。

ABSTRACT

Retrosynthesis is one of the fundamental problems in organic chemistry. The task is to identify reactants that can be used to synthesize a specified product molecule. Recently, computer-aided retrosynthesis is finding renewed interest from both chemistry and computer science communities. Most existing approaches rely on template-based models that define subgraph matching rules, but whether or not a chemical reaction can proceed is not defined by hard decision rules. In this work, we propose a new approach to this task using the Conditional Graph Logic Network, a conditional graphical model built upon graph neural networks that learns when rules from reaction templates should be applied, implicitly considering whether the resulting reaction would be both chemically feasible and strategic. We also propose an efficient hierarchical sampling to alleviate the computation cost. While achieving a significant improvement of $8.1\%$ over current state-of-the-art methods on the benchmark dataset, our model also offers interpretations for the prediction.

研究の動機と目的

  • 化学反応テンプレートとニューラル推論を組み合わせて単一步 retrosynthesis の問題に取り組む。
  • 化学知識を論理規則としてエンコードし、確率的グラフィカルモデルを介して適用時期を学習する。
  • 純粋なルールベースまたは純粋なニューラルアプローチよりもスケーラビリティと解釈性を向上させる。
  • 階層的サンプリングとグラフ埋め込みを用いた効率的な学習/推論フレームワークを提供する。

提案手法

  • テンプレート T と反応物集合 R の条件付きグラフィカルモデルとして、生成物 O を Given として p(T|O) および p(R|T,O) を用いる retrosynthesis のモデル化。
  • テンプレートを論理規則として分解可能性を持たせて表現: O の中心 o^T をマッチさせて生成物中心を一致させ、R 内の反応物 r_i^T を部分グラフ同型性でマッチさせる。
  • エネルギー項 w1, w2 と φ 関数をグラフニューラルネットワークでパラメータ化し、分子と部分グラフ (v1, v2, w2) を埋め込む。
  • p(T|O) を p(o^T|O) と p({r^T}|O) に分解して学習と推論を高速化し、分解可能な分配関数 Z(O) と階層的サンプリングを用いる。
  • 重要度サンプリングを活用したロジック駆動の sparsity を利用した効率的勾配推定により最大尤度で訓練する。
  • ビーム探索とキャッシュ戦略を用いて予測を加速し、反応中心とテンプレートの解釈可能な予測を提供する。

実験結果

リサーチクエスチョン

  • RQ1反応テンプレートと反応物の条件付きグラフィカルモデルは単一步 retrosynthesis の精度を改善できるか。
  • RQ2解釈性とスケーラビリティを両立するために、論理規則に基づくマッチングをニューラル埋め込みと統合できるか。
  • RQ3大規模なテンプレート集合上でスケーラブルな学習を可能にする効率的推論手法(例:階層的サンプリング、ビーム探索)は何か。

主な発見

Method (Setting)Top-1Top-3Top-5Top-10Top-20Top-50
GLN (未知)52.569.075.683.789.092.4
GLN (与えられた)64.279.185.290.092.393.2
Retrosim (未知)37.354.763.374.182.085.3
Retrosim (与えられた)52.973.881.288.191.892.9
Neuralsym (未知)44.465.372.478.982.283.1
Neuralsym (与えられた)55.376.081.485.186.586.9
Transformer (未知)37.957.362.7///
Transformer (与えられた)//////
  • GLN は USPTO-50k で最先端ベースラインより有意な改善を達成し、未知の反応クラス設定で Top-1 精度が 8.1% 増加。
  • 反応クラス事前分布を用いた GLN は、Top-k 指標全般でルールベースおよびニューラル seq2seq のベースラインに匹敵または上回る。
  • 大規模データセット(USPTO-full)へスケールし、強力なベースラインに対して競争力のある Top-k 精度を維持。
  • 反応中心とサブグラフパターン埋め込みを Ground-truth コアと整合させて可視化することにより、解釈可能な予測を提供。
  • 分解されたテンプレートモデリング、キャッシング、階層的サンプリングによる効率的推論は、訓練時間を現実的(USPTO-50k で約12 時間の GTX 1080 Ti)にし、実用的な予測時間を実現。
  • 本フレームワークは既知の反応種 c に条件付けするオプションをサポートしており、制限付きテンプレートセットを用いた標的 retrosynthesis 計画を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。