QUICK REVIEW

[論文レビュー] A Graph to Graphs Framework for Retrosynthesis Prediction

Chence Shi, Minkai Xu|arXiv (Cornell University)|Mar 28, 2020

Advanced Graph Neural Networks参考文献 35被引用数 74

ひとこと要約

G2Gsは、反応中心の同定と変分グラフ翻訳を介して標的分子グラフを反応物グラフへ翻訳するテンプレートなしの逆合成モデルであり、テンプレートベースの方法に近いトップ1性能を達成しつつ、規模拡大にも適している。

ABSTRACT

A fundamental problem in computational chemistry is to find a set of reactants to synthesize a target molecule, a.k.a. retrosynthesis prediction. Existing state-of-the-art methods rely on matching the target molecule with a large set of reaction templates, which are very computationally expensive and also suffer from the problem of coverage. In this paper, we propose a novel template-free approach called G2Gs by transforming a target molecular graph into a set of reactant molecular graphs. G2Gs first splits the target molecular graph into a set of synthons by identifying the reaction centers, and then translates the synthons to the final reactant graphs via a variational graph translation framework. Experimental results show that G2Gs significantly outperforms existing template-free approaches by up to 63% in terms of the top-1 accuracy and achieves a performance close to that of state-of-the-art template based approaches, but does not require domain knowledge and is much more scalable.

研究の動機と目的

逆合成予測の動機づけと、テンプレートベース手法の課題（コストと一般化性）に対処する。
分子グラフ上で動作するテンプレートなしのグラフ間フレームワーク（G2Gs）を提案する。
反応中心を識別してシンソンを生成し、それらを変分グラフ翻訳機で反応物へ翻訳する。
グラフ生成フレームワーク内で潜在変数を介して、予測の多様性とモダリティを捉える。
ベースラインと比較してUSPTO-50kデータセットでのスケーラビリティと競争力のある性能を実証する。

提案手法

分子をグラフとして表現し、Relational GCNに基づく反応中心スコアリングネットワークを用いて反応中心を識別する。
反応中心を切り離して生成物をシンソンに分割し、潜在変数 z を用いた変分グラフ翻訳モデルで各シンソンを反応物へ翻訳する。
潜在変数 z と S に条件付けられたグラフ変換操作を自己回帰的に生成して、Reactant-Google 分布 P(G|S) をモデル化する。
翻訳器を訓練するために、ガウス近似後方分布 q(z|G,S) を用いたアモルタイズド変分目的関数（ELBO）を用いる。
推論時にビーム探索を用いて多様で有効な反応物グラフを生成し、露出バイアスを緩和する。

実験結果

リサーチクエスチョン

RQ1テンプレートなしのグラフベースモデルが、ドメイン固有の反応テンプレートを用いずに競争力のある逆合成精度を達成できるか。
RQ2製品グラフから反応中心をどれだけ効果的に識別して、逆合成をシンソンレベルの翻訳へ分解できるか。
RQ3特定のシンソンに対して、変分グラフ翻訳モジュールが化学的妥当性を保ちながら、可能な反応物の多 modal 分布を捉えるか。
RQ4USPTO-50k における G2Gs のスケーラビリティと性能は、テンプレートベースおよび他のテンプレートなしアプローチと比較してどうか。

主な発見

G2Gs は USPTO-50k でトップ1精度の点でテンプレートなしのベースラインを最大で63%上回る。
G2Gs は、領域知識に依存せず、最先端のテンプレートベース手法にほぼ近づくか上回る。
反応中心の識別は高精度を達成し、特に反応クラスが既知の場合（トップ1 90.2%）、未知クラスでも依然として強い（トップ1 75.8%）。
変分グラフ翻訳は高いトップ-k 精度を生み出す（例：反応クラスが既知の場合：トップ1 66.8%、トップ5 91.5%、トップ10 93.9%）。
潜在変数は多様で妥当な反応物の生成を可能にし、特定のシンソンに対して複数のもっともらしい翻訳によって示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。