[論文レビュー] Generative Artificial Intelligence for Navigating Synthesizable Chemical Space
SynFormerは、拡散ベースのビルディングブロック選択とエンドツーエンド微分可能性を用いて、局所および全体の合成可能な化学空間を探索できる、合成可能な合成経路を生成するトランスフォーマー系フレームワークです。
We introduce SynFormer, a generative modeling framework designed to efficiently explore and navigate synthesizable chemical space. Unlike traditional molecular generation approaches, we generate synthetic pathways for molecules to ensure that designs are synthetically tractable. By incorporating a scalable transformer architecture and a diffusion module for building block selection, SynFormer surpasses existing models in synthesizable molecular design. We demonstrate SynFormer's effectiveness in two key applications: (1) local chemical space exploration, where the model generates synthesizable analogs of a reference molecule, and (2) global chemical space exploration, where the model aims to identify optimal molecules according to a black-box property prediction oracle. Additionally, we demonstrate the scalability of our approach via the improvement in performance as more computational resources become available. With our code and trained models openly available, we hope that SynFormer will find use across applications in drug discovery and materials science.
研究の動機と目的
- 合成性のある設計を保証する必要性を動機づけ、合成可能性中心の分子設計を促進する。
- 単なる構造ではなく合成経路を生成するスケーラブルな生成フレームワークを開発する。
- ビルディングブロックと反応を選択するために、拡散モジュールを組み込んだトランスフォーマーのバックボーンを活用する。
- 局所的(参照分子駆動)および全球的(ブラックボックス目的駆動)な合成可能性化学空間の探索を実証する。
提案手法
- START、END、RXN、BBのトークンを用いたポストフィックス表記で合成経路を表現する。
- トランスフォーマーを用いて経路トークンを自動回帰的に生成し、各ステップでトークンタイプを分類する。
- ノイズ除去拡散確率モジュールを組み込み、ビルディングブロックの指紋を予測しBBを選択する。
- 二つの実例を訓練する:SynFormer-D(デコーダーのみ)とSynFormer-ED(入力SMILESを条件とするエンコーダー–デコーダー)。
- 115の反応テンプレートと223,244のビルディングブロックから構築されたシミュレート空間で訓練し、Enamine REAL Spaceを拡張する。

実験結果
リサーチクエスチョン
- RQ1SynFormerは分子を正確に再構成し、合成可能な化学空間を大きくカバーできるか。
- RQ2SynFormerは再現不能な入力に対しても合成可能な類似体を生成しつつ、重要な特徴を保持できるか。
- RQ3SynFormerは全球的な化学空間をナビゲートして特性を最適化しつつ、合成可能性を尊重できるか。
- RQ4SynFormerは突然変異演算子として、または強化学習ガイド付き最適化フレームワーク内でどのように機能するか。
主な発見
- SynFormer-EDはREAL Spaceでの再構成率が66%と高く、以前のモデルを上回りChEMBL(20%)を上回る。
- モデルの性能(指紋BCE)はモデルサイズとデータ量の増加とともに向上し、性能のスケーリングにはより多くのデータと計算が必要。
- SynFormer-EDは再構成不能な設計に対しても合成可能な類似体を生成し、目標スコアを保持しつつ合成アクセス性を向上させる。
- SynFormer-DをRL(SF-RL)でファインチューニングすると、DRD2結合の高スコア分子を生成するよう偏り、特定の設定でいくつかの方法を上回る。
- GraphGA内の突然変異演算子としてSynFormer-EDを用いるGraphGA-SFは、GuacaMolタスク全般で合成可能性を強化しつつ競争力のある最適化を実現する。
- このフレームワークは、局所空間の投影、ヒット拡張、およびグローバル最適化を、合成経路が存在することを保証しながら実現する。
![Figure 2: Model performance on molecular reconstruction. (A and B) Comparison of the reconstruction rate and average structural (Tanimoto) similarity between input and output molecules for SynFormer-ED, ChemProjector [ 67 ] , and SynNet [ 65 ] on 1,000 randomly selected molecules from (A) REAL Diver](https://ar5iv.labs.arxiv.org/html/2410.03494/assets/figures/F2_arxiv.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。