[論文レビュー] Reinforced Genetic Algorithm for Structure-based Drug Design
RLを用いた強化学習と遺伝的アルゴリズムを3Dの標的-リガンド構造で導くRGAは、構造ベースの薬剤設計におけるドッキングベースの最適化を改善し、ターゲット間の事前学習と知識移転により性能と頑健性を向上させる。
Structure-based drug design (SBDD) aims to discover drug candidates by finding molecules (ligands) that bind tightly to a disease-related protein (targets), which is the primary approach to computer-aided drug discovery. Recently, applying deep generative models for three-dimensional (3D) molecular design conditioned on protein pockets to solve SBDD has attracted much attention, but their formulation as probabilistic modeling often leads to unsatisfactory optimization performance. On the other hand, traditional combinatorial optimization methods such as genetic algorithms (GA) have demonstrated state-of-the-art performance in various molecular optimization tasks. However, they do not utilize protein target structure to inform design steps but rely on a random-walk-like exploration, which leads to unstable performance and no knowledge transfer between different tasks despite the similar binding physics. To achieve a more stable and efficient SBDD, we propose Reinforced Genetic Algorithm (RGA) that uses neural models to prioritize the profitable design steps and suppress random-walk behavior. The neural models take the 3D structure of the targets and ligands as inputs and are pre-trained using native complex structures to utilize the knowledge of the shared binding physics from different targets and then fine-tuned during optimization. We conduct thorough empirical studies on optimizing binding affinity to various disease targets and show that RGA outperforms the baselines in terms of docking scores and is more robust to random initializations. The ablation study also indicates that the training on different targets helps improve performance by leveraging the shared underlying physics of the binding processes. The code is available at https://github.com/futianfan/reinforced-genetic-algorithm.
研究の動機と目的
- 構造ベースの薬剤設計における従来のGAの非効率性と不安定性をタンパク質構造情報を取り入れて解決する。
- 進化過程を進化的マルコフ決定過程(EMDP)として再定式化し、強化学習を可能にする。
- 3D構造データを用いて交叉と突然変異を導くターゲット-リガンド等変性ニューラルネットワークを開発する。
- nativeなタンパク質-リガンド複合体でモデルを事前学習し、ターゲット間で知識移転を可能にして共有結合の物理を捉える。
- SARS-CoV-2主プロテアーゼを含む複数の疾病ターゲットに対して、ドッキングスコアと頑健性の改善を実証する。
提案手法
- GAをPopulationレベルの状態とドッキングスコアベースの報酬を持つEMDPとしてモデル化する。
- 交叉を導く2つのポリシー Network(2段階の親選択)と、突然変異を導く2つのポリシー Network(親選択と反応選択)を用いる。
- E(3)-等変性ニューラルネットワークを用いて標的-リガンド複合体を処理し、アクション確率を出力する。
- CrossDocked2020データを用いて3D結合親和性タスクでENNを事前学習し、共通の結合物理を捉え、それから最適化中に微調整する。
- ポリシーをポリシー勾配(REINFORCE)で最適化し、期待されるドッキングスコアの改善を最大化する。
- AutoDock Vinaをドッキングオラクルとして使用し、合成可能性を保証するように化学的に意味のある単体および二量体反応で変異を設計する。
実験結果
リサーチクエスチョン
- RQ1強化学習によるガイド付きGAは、ドッキングスコア最適化においてベースラインの構造ベース設計法を上回るか。
- RQ2ターゲット構造情報を活用することでランダム性を低減し、複数回の実行で頑健性を向上させるか。
- RQ3native複合体での事前学習とターゲット間の知識移転がSBDDの性能を向上させるか。
- RQ4長距離の交叉を組み込むことは、局所的な変異のみのRL法と比較して最適化にどのような影響を与えるか。
主な発見
| Method | TOP-100 | TOP-10 | TOP-1 | Nov | Div | QED | SA |
|---|---|---|---|---|---|---|---|
| Screening | -9.351 b1 0.643 | -10.433 b1 0.563 | -11.400 b1 0.630 | 0.0 b1 0.0% | 0.858 b1 0.005 | 0.678 b1 0.022 | 2.689 b1 0.077 |
| MARS | -7.758 b1 0.612 | -8.875 b1 0.711 | -9.257 b1 0.791 | 100.0 b1 0.0% | 0.877 b1 0.001 | 0.709 b1 0.008 | 2.450 b1 0.034 |
| MolDQN | -6.287 b1 0.396 | -7.043 b1 0.487 | -7.501 b1 0.402 | 100.0 b1 0.0% | 0.877 b1 0.009 | 0.170 b1 0.024 | 5.833 b1 0.182 |
| GEGL | -9.064 b1 0.920 | -9.91 b1 0.990 | -10.45 b1 1.040 | 100.0 b1 0.0% | 0.853 b1 0.003 | 0.643 b1 0.014 | 2.99 b1 0.054 |
| REINVENT | -10.181 b1 0.441 | -11.234 b1 0.632 | -12.010 b1 0.833 | 100.0 b1 0.0% | 0.857 b1 0.011 | 0.445 b1 0.058 | 2.596 b1 0.116 |
| RationaleRL | -9.233 b1 0.920 | -10.834 b1 0.856 | -11.642 b1 1.102 | 100.0 b1 0.0% | 0.717 b1 0.025 | 0.315 b1 0.023 | 2.919 b1 0.126 |
| JTVAE | -9.291 b1 0.702 | -10.242 b1 0.839 | -10.963 b1 1.133 | 98.0 b1 0.027% | 0.867 b1 0.001 | 0.593 b1 0.035 | 3.222 b1 0.136 |
| Gen3D | -8.686 b1 0.450 | -9.285 b1 0.584 | -9.832 b1 0.324 | 100.0 b1 0.0% | 0.870 b1 0.006 | 0.701 b1 0.016 | 3.450 b1 0.120 |
| GA+D | -7.487 b1 0.757 | -8.305 b1 0.803 | -8.760 b1 0.796 | 99.2 b1 0.011% | 0.834 b1 0.035 | 0.405 b1 0.024 | 5.024 b1 0.164 |
| Graph-GA | -10.848 b1 0.860 | -11.702 b1 0.930 | -12.302 b1 1.010 | 100.0 b1 0.0% | 0.811 b1 0.037 | 0.456 b1 0.067 | 3.503 b1 0.367 |
| Autogrow 4.0 | -11.371 b1 0.398 | -12.213 b1 0.623 | -12.474 b1 0.839 | 100.0 b1 0.0% | 0.852 b1 0.011 | 0.748 b1 0.022 | 2.497 b1 0.049 |
| RGA (ours) | -11.867 b1 0.170 | -12.564 b1 0.287 | -12.869 b1 0.473 | 100.0 b1 0.0% | 0.857 b1 0.020 | 0.742 b1 0.036 | 2.473 b1 0.048 |
| RGA -pretrain | -11.443 b1 0.219 | -12.424 b1 0.386 | -12.435 b1 0.654 | 100.0 b1 0.0% | 0.854 b1 0.035 | 0.750 b1 0.034 | 2.494 b1 0.043 |
| RGA - KT | -11.434 b1 0.169 | -12.437 b1 0.354 | -12.502 b1 0.603 | 100.0 b1 0.0% | 0.853 b1 0.028 | 0.738 b1 0.034 | 2.501 b1 0.050 |
- RGAは評価対象のターゲット全体でTOP-100、TOP-10、TOP-1のドッキングスコアで最高を達成する。
- RGAは5回の独立実行で分散が減少し、ランダムウォーク挙動を抑制することを示す。
- 知識移転と多様なターゲットでの事前学習は、トップkのドッキングスコアの性能をさらに向上させる。
- Autogrow 4.0と比較して、RGAは学習された行動ガイダンスと長距離ナビゲーションにより優れたドッキング性能を提供する。
- 長距離の交叉ナビゲーションは、局所的な修正に焦点を当てるRL法よりも優れており、構造情報を反映した探索の利点を示す。
- アプローチはQEDとSAスコアを競合的に維持しており、適切な構造品質と合成可能性を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。