[論文レビュー] Learning Graph Models for Retrosynthesis Prediction
GraphRetro はまずグラフ編集を予測してシントンを形成し、次に事前計算されたリービンググループのサブグラフでシントンを完成させて反応物を得ることで、反応クラスを知らなくても remapped USPTO-50k で top-1 精度 53.7% を達成する。
Retrosynthesis prediction is a fundamental problem in organic synthesis, where the task is to identify precursor molecules that can be used to synthesize a target molecule. A key consideration in building neural models for this task is aligning model design with strategies adopted by chemists. Building on this viewpoint, this paper introduces a graph-based approach that capitalizes on the idea that the graph topology of precursor molecules is largely unaltered during a chemical reaction. The model first predicts the set of graph edits transforming the target into incomplete molecules called synthons. Next, the model learns to expand synthons into complete molecules by attaching relevant leaving groups. This decomposition simplifies the architecture, making its predictions more interpretable, and also amenable to manual correction. Our model achieves a top-1 accuracy of $53.7\%$, outperforming previous template-free and semi-template-based methods.
研究の動機と目的
- 反応物から生成物のグラフトポロジーを保持する chemists の戦略に沿った逆合成モデルの動機付け。
- 逆合成を edit prediction(to synthons)と synthon completion(via leaving groups)に分解。
- 全シーケンス生成を回避して解釈性を向上させ、手動修正を支援。
- 事前計算された小さな leaving-group ボキャブラリを活用し、反応物の構築を簡略化。
提案手法
- 既存結合/原子に対する edits を予測するグラフエンコーダー(MPN)を訓練し、生成物を synthons に変換。
- 編集スコアを結合グラフ MPN で更新し、 edits 間の依存性を捉える。
- synthon–reactant の差異から小さな leaving groups のボキャブラリーを構築し、synthon completed をこのボキャブラリー上の分類として実行。
- 予測された leaving groups を synthons に化学的に制約された規則で結合して反応物を生成。
- 編集と leaving-group シーケンス上のビームサーチで予測を推論。
実験結果
リサーチクエスチョン
- RQ1グラフベースの半テンプレート逆合成モデルは、標準ベンチマーク上でテンプレートベース、テンプレートフリー、および既存の半テンプレート手法を上回ることができるか。
- RQ2既存の結合/原子への edits の予測と leaving-group の分類は、逆合成変換を効率的に捉えるか。
- RQ3反応クラスが既知の場合と未知の場合でモデルの性能はどうなるか。
- RQ4シントンレベルの leaving groups は、シーケンスベースの生成と比較して解釈性と訂正の容易さをどの程度向上させるか。
主な発見
| モデル | Top-1 (Known) | Top-3 (Known) | Top-5 (Known) | Top-10 (Known) | Top-1 (Unknown) | Top-3 (Unknown) | Top-5 (Unknown) | Top-10 (Unknown) |
|---|---|---|---|---|---|---|---|---|
| Template-Based Retrosim | 52.9 | 73.8 | 81.2 | 88.1 | 37.3 | 54.7 | 63.3 | 74.1 |
| NeuralSym | 55.3 | 76.0 | 81.4 | 85.1 | 44.4 | 65.3 | 72.4 | 78.9 |
| GLN | 64.2 | 79.1 | 85.2 | 90.0 | 52.5 | 69.0 | 75.6 | 83.7 |
| DualTB | 67.7 | 84.8 | 88.9 | 92.0 | 55.2 | 74.6 | 80.5 | 86.9 |
| SCROP | 59.0 | 74.8 | 78.1 | 81.1 | 43.7 | 60.0 | 65.2 | 68.7 |
| LV-Transformer | - | - | - | - | 40.5 | 65.1 | 72.8 | 79.4 |
| DualTF | 65.7 | 81.9 | 84.7 | 85.9 | 53.6 | 70.7 | 74.6 | 77.0 |
| G2Gs | 61.0 | 81.3 | 86.0 | 88.7 | 48.9 | 67.6 | 72.5 | 75.5 |
| RetroXpert | 62.1 | 75.8 | 78.5 | 80.9 | 50.4 | 61.1 | 62.3 | 63.4 |
| GraphRetro | 63.9 | 81.5 | 85.2 | 88.1 | 53.7 | 68.3 | 72.2 | 75.5 |
- GraphRetro は反応クラス不明でも remapped USPTO-50k で top-1 精度 53.7% を達成し、従来のテンプレートフリーおよび半テンプレートベースの手法を上回る。
- 反応クラスが既知の場合、GraphRetro は G2Gs および RetroXpert を約 3% ポイント上回るトップ1 精度を達成し、トップ5/トップ10 でも競争力を維持。
- 編集予測と synthon completion モジュールは高い性能を示し、クラスが既知の場合 synthon leaving-group 予測は top-5 で真の leaving group の約 97% を識別。
- 既存の結合/原子を用いた edit prediction は O(N^2) から O(N) に複雑性を低減し、解釈性を向上させ、 edits の人間による修正を可能にする。
- leaving-group ボキャブラリは小さなまま(USPTO-50k で 170)ながらテストケースの 99.7% をカバーし、分類ベースの合成完成を効率化。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。