[論文レビュー] Look mom, no experimental data! Learning to score protein-ligand interactions from simulations
論文は Ligand Force Matching (LFM) を紹介します。LFM は MD シミュレーションデータで学習したターゲット毎のニューラルネットワークで、PMF に基づく自由エネルギー景観を学習してタンパク質-リガンド結合を評価します。ターゲットごとに 100-500 µs の MD を用いることで、仮想スクリーニング性能が競争力を持つことを示しています。
Despite recent advances in protein-ligand structure prediction, deep learning methods remain limited in their ability to accurately predict binding affinities, particularly for novel protein targets dissimilar from the training set. In contrast, physics-based binding free energy calculations offer high accuracy across chemical space but are computationally prohibitive for large-scale screening. We propose a hybrid approach that approximates the accuracy of physics-based methods by training target-specific neural networks on molecular dynamics simulations of the protein in complex with random small molecules. Our method uses force matching to learn an implicit free energy landscape of ligand binding for each target. Evaluated on six proteins, our approach achieves competitive virtual screening performance using 100-500 $μ$s of MD simulations per target. Notably, this approach achieves state-of-the-art early enrichment when using the true pose for active compounds. These results highlight the potential of physics-informed learning for virtual screening on novel targets. We publicly release the code for this paper at https://github.com/molecularmodelinglab/lfm under the MIT license.
研究の動機と目的
- タンパク質-リガンド結合のスコアリングを、純粋な機械学習や純粋な物理ベース手法を超えるよう改善する動機づけ.
- MD由来の力データで訓練されたターゲット毎のニューラルネットワークを提案し、リガンド結合のPMFを近似する。
- 物理情報を取り入れた精度を維持しつつ、仮想スクリーニングの高速なスコアリングを可能にする。
- 複数ターゲットでの性能を示し、ポーズ感度と一般化性を分析する。
- 再現性とさらなる発展を促すため、コードとデータを公開する。
提案手法
- ターゲット結合部位にランダムな小分子を配置し、短いアルキミック準備と MD を回して衝突を取り除くことで MD ベースの訓練データを生成する。
- 力のマッチングを用いてネットワークを訓練し、分子間 PMF G_PMF から分子内項を除いた近似を、力と COM トルクを一致させる損失で最適化する。
- リガンド特徴と座標を atom-ML 埋め込みと等変換トランスフォーマーを介して埋め込み、PMF に基づくエネルギーを予測する。
- ドックされたポーズを評価する際、ドックポーズの f(x) を計算し、溶媒和参照ポーズの f(x_solv) を引いて ΔG_binding を推定する(剛体リガンド仮定)。
- 力のマッチング損失と COM 力・トルク損失を重み付き項で組み合わせてモデルを訓練する。
- 6 ターゲットで 100-500 µs の MD を用いて評価し、Vina、Gnina、DiffDock ベースのドッキング Ensemble と比較する。
実験結果
リサーチクエスチョン
- RQ1MD 由来の力データで訓練されたターゲット毎のニューラルネットワークが、Protein-Ligand binding の PMF を十分に近似して仮想スクリーニングを改善できるか。
- RQ2ドックされたポーズと真のリガンドポーズを用いた場合、LFM は従来のスコアリング法と比べてどのような性能を示すか。
- RQ3ドメイン内ターゲットに対して競争力があり、訓練データに欠如する新規ターゲットにもより頑健である可能性はあるか。
- RQ4競争力のあるエンリッチメントを達成するためのターゲットごとの MD 時間のデータ要件はどれくらいか。
主な発見
| Model | EF^B_max | EF^B_1% | AUC |
|---|---|---|---|
| Vina (UD) | 9.7 [3.4, 15] | 1.9 [0.86, 2.7] | 0.54 ± 0.03 |
| Gnina (UD) | 6.9 [4.2, 14] | 3.7 [2.1, 4.5] | 0.59 ± 0.02 |
| LFM (UD) | 4.6 [3.3, 14] | 2.0 [1.2, 3.1] | 0.52 ± 0.02 |
| Vina (DD) | 16 [4.7, 25] | 3.5 [2.0, 4.4] | 0.60 ± 0.02 |
| Gnina (DD) | 13 [7.7, 27] | 5.8 [3.9, 7.3] | 0.68 ± 0.02 |
| LFM (DD) | 14 [7.8, 33] | 6.2 [3.6, 8.7] | 0.58 ± 0.03 |
- 真の共晶結晶ポーズを用いた活性物質に対して、LFM は複数のターゲットで最先端の早期エンリッチメントを達成した。
- ドックポーズを用いた場合、LFM の性能はベースラインスコアラーと競合し、ポーズ感度が強く、ポーズ選択に優れていることを示した。
- DiffDock やより正確なドッキングを用いるとエンリッチメントが向上し、結晶ポーズは LFM にとって顕著な利得をもたらす。
- ターゲットごとの MD データ 100-500 µs は、合理的なコスト(約 $1K/ターゲット)で six proteins に対して競争力のエンリッチメントを達成する。
- LFM の推論は速く、GPU の L40 上で平均約 2.5 秒/分子であり、大規模スクリーニングを可能にする。
- 真のポーズを使用した場合、ポーズ再ランク付けにおいて LFM は優位であり、物理情報を取り入れたポーズ感度の高さを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。