[論文レビュー] Learning To Navigate The Synthetically Accessible Chemical Space Using Reinforcement Learning
本論文は Policy Gradient for Forward Synthesis (PGFS) を導入し、前方マルチステップ合成を介して合成可能な化学空間を探索し、創薬設計における新規化合物設計に合成実現性を組み込む強化学習フレームワークである。QEDおよび penalized clogP で最先端の指標を達成し、in silicoでHIVターゲット活性の改善を示す。
Over the last decade, there has been significant progress in the field of machine learning for de novo drug design, particularly in deep generative models. However, current generative approaches exhibit a significant challenge as they do not ensure that the proposed molecular structures can be feasibly synthesized nor do they provide the synthesis routes of the proposed small molecules, thereby seriously limiting their practical applicability. In this work, we propose a novel forward synthesis framework powered by reinforcement learning (RL) for de novo drug design, Policy Gradient for Forward Synthesis (PGFS), that addresses this challenge by embedding the concept of synthetic accessibility directly into the de novo drug design system. In this setup, the agent learns to navigate through the immense synthetically accessible chemical space by subjecting commercially available small molecule building blocks to valid chemical reactions at every time step of the iterative virtual multi-step synthesis process. The proposed environment for drug discovery provides a highly challenging test-bed for RL algorithms owing to the large state space and high-dimensional continuous action space with hierarchical actions. PGFS achieves state-of-the-art performance in generating structures with high QED and penalized clogP. Moreover, we validate PGFS in an in-silico proof-of-concept associated with three HIV targets. Finally, we describe how the end-to-end training conceptualized in this study represents an important paradigm in radically expanding the synthesizable chemical space and automating the drug discovery process.
研究の動機と目的
- 生成される化合物が合成可能であることを保証するため、合成実現性を新規薬物設計に直接組み込むことを動機づける。
- 反応物と反応テンプレートの大規模で連続的な行動空間をナビゲートする前方合成RLフレームワークを開発する。
- 望ましい分子特性を最大化するために、エンドツーエンド学習で多段階合成計画を可能にする。
- 標準的な薬物適合性指標とin silicoのHIVターゲット活性の改善を実証する。
- 合成可能な製品へ生成を偏らせることができるスケーラブルな学習パラダイムを提供する。
提案手法
- RLを用いて反応テンプレートと反応物を選択し、創薬デザインを連続的な前方合成問題としてモデル化する。
- 価値を推定するために、2つの学習可能なネットワーク(fとpi)とQネットワークを備えた連続アクションのActor-Criticフレームワーク(TD3)を採用する。
- 二段階のアクション分解を使用する:まず反応テンプレートを選択し、次に適合する反応物を選択する(連続埋め込みによる離散空間を縮小)。
- 反応物を連続特徴空間で表現し、各ステップで最も近いtop-k反応物を選択するためにk-NNを用いて行動を離散分子へマッピングする。
- テンプレート選択が不確実な場合に勾配を流すためにテンプレート上のGumbel-softmaxを統合する。
- リプレイバッファと遅延アクター更新を伴い、ターゲットポリシー平滑化とダブル-Q学習を含む標準のTD3更新で訓練する。
- RDKitとSMARTSベースの反応テンプレートを使用して各ステップで実現可能な生成物分子を生成する。
- Morgan指紋とMolDSet記述子を入力特徴として使用し、QED、penalized clogP、およびHIVターゲットQSARモデルで評価する。
実験結果
リサーチクエスチョン
- RQ1前方合成ルートを通じて合成可能な新規分子を、強化学習エージェントは生成できるか。
- RQ2目的関数に前方合成制約を組み込むと、標準的な薬物様指標(QED)および合成可能性指標(penalized clogP)は改善されるか。
- RQ3RLベースの前方合成フレームワークは、ベースラインのランダム探索と比較してHIV関連ターゲットに対するin silico活性予測を改善できるか。
- RQ4前方合成における反応物の大きな離散アクション空間を扱うために必要な実用的な訓練上の考慮事項と表現は何か。
主な発見
- PGFS は random search baseline と比較して QED および penalized clogP で最先端の性能を達成する。
- in-silico のHIVターゲット研究では、PGFS は3つのHIV関連ターゲットに対してベースラインより高い予測活性を持つ分子を生成した。
- 階層的アクション分解(テンプレート→反応物)とk-NNを用いた連続埋め込みにより、非常に大規模なアクション空間で扱える学習を可能にする。
- QSARモデルのADフィルタリングの有無にかかわらず、QDおよび penalized clogP の改善が維持され、評価設定全体での頑健性を示す。
- このアプローチは、前方合成のエンドツーエンド訓練が合成可能な化学空間を大幅に拡張し、創薬を自動化できることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。