Skip to main content
QUICK REVIEW

[論文レビュー] PoseBusters: AI-based docking methods fail to generate physically valid poses or generalise to novel sequences

Martin Buttenschoen, Garrett M. Morris|arXiv (Cornell University)|Aug 10, 2023
Computational Drug Discovery Methods被引用数 17
ひとこと要約

本論文は PoseBusters を紹介する。RDKit を用いた Python ベースのテストスイートで、タンパク質-リガンドのドッキングポーズの化学的妥当性と物理的妥当性を評価し、これらの検査が適用された場合や新規シーケンスへの一般化を試みた場合に、現在の DL ベースのドッキング手法が古典的なドッキングツールを上回らないことを示している。

ABSTRACT

The last few years have seen the development of numerous deep learning-based protein-ligand docking methods. They offer huge promise in terms of speed and accuracy. However, despite claims of state-of-the-art performance in terms of crystallographic root-mean-square deviation (RMSD), upon closer inspection, it has become apparent that they often produce physically implausible molecular structures. It is therefore not sufficient to evaluate these methods solely by RMSD to a native binding mode. It is vital, particularly for deep learning-based methods, that they are also evaluated on steric and energetic criteria. We present PoseBusters, a Python package that performs a series of standard quality checks using the well-established cheminformatics toolkit RDKit. Only methods that both pass these checks and predict native-like binding modes should be classed as having "state-of-the-art" performance. We use PoseBusters to compare five deep learning-based docking methods (DeepDock, DiffDock, EquiBind, TankBind, and Uni-Mol) and two well-established standard docking methods (AutoDock Vina and CCDC Gold) with and without an additional post-prediction energy minimisation step using a molecular mechanics force field. We show that both in terms of physical plausibility and the ability to generalise to examples that are distinct from the training data, no deep learning-based method yet outperforms classical docking tools. In addition, we find that molecular mechanics force fields contain docking-relevant physics missing from deep-learning methods. PoseBusters allows practitioners to assess docking and molecular generation methods and may inspire new inductive biases still required to improve deep learning-based methods, which will help drive the development of more accurate and more realistic predictions.

研究の動機と目的

  • RMSD を超えてドッキング予測を評価する必要性を、化学的および物理的妥当性チェックを組み込むことで動機付ける。
  • PoseBusters を紹介する。RDKit ベースのテストスイートで、リガンドの幾何学、立体化学、タンパク質–リガンド相互作用を検証する。
  • PoseBusters の基準の下で、5 つの DL ベースのドッキング手法と 2 つの古典的手法を比較する。
  • 新規のタンパク質ターゲットへの一般化と、予測後のエネルギー最小化の効果を評価する。

提案手法

  • 三つのテストグループを持つ PoseBusters テストスイートを開発:化学的妥当性と一貫性、分子内の妥当性、分子間の妥当性。
  • RDKit を用いてサニタイズ、InChI の標準化、結合長/角度のチェック、平面性テスト、衝突/体積重なりの評価を実施。
  • Astex Diverse および PoseBusters Benchmark データセット上で、5 つの DL ベースのドッキング手法(DeepDock、DiffDock、EquiBind、TankBind、Uni-Mol)と 2 つの古典的手法(AutoDock Vina、Gold)を評価。
  • 既知のリガンドを対応受容体に再ドッキングし、RMSD、PB-妥当性、エネルギーチェックで定量化。
  • 任意でポストドッキングエネルギー最小化を AMBER ff14sb/Sage/OpenMM を用いて適用し、妥当性の改善を評価。
Fig. 1 : Comparative performance of the docking methods. The Astex Diverse set ( $85$ cases) was chosen as an easy test set containing many complexes the five DL-based methods were trained on while the PoseBusters Benchmark set ( $308$ cases) was chosen to be a difficult test set containing complexe
Fig. 1 : Comparative performance of the docking methods. The Astex Diverse set ( $85$ cases) was chosen as an easy test set containing many complexes the five DL-based methods were trained on while the PoseBusters Benchmark set ( $308$ cases) was chosen to be a difficult test set containing complexe

実験結果

リサーチクエスチョン

  • RQ1現在の DL ベースのドッキング手法は、PoseBusters の検査に従って物理的に妥当なリガンドポーズを生成するか?
  • RQ2物理的妥当性が考慮された場合、DL ベースの手法は古典的なドッキングツールとどのように比較されるか?
  • RQ3これらの手法は、訓練時に見られなかった新規のタンパク質ターゲットにどれくらい一般化できるか?
  • RQ4ポストドッキングのエネルギー最小化は、DL ベースの予測に対して物理的に妥当なポーズを回復または改善できるか?
  • RQ5PoseBusters の基準下で、DL ベースの手法で最も一般的に見られる故障モードは何か?

主な発見

  • DL ベースのドッキング手法は、RMSD に基づく成功にもかかわらず、化学的/物理的妥当性チェックにしばしば失敗する。
  • Astex Diverse セットでは、いくつかの DL 手法が RMSD ≤ 2 Å を達成するが、全ての PoseBusters テストに合格するのは一部のみ(PB-Valid); 妥当性を考慮すると Gold と AutoDock Vina が最も良く機能する。
  • PoseBusters Benchmark セット(新規ターゲット)では、Gold と AutoDock Vina が RMSD と PB-妥当性の両方で再び DL 法を上回る。DiffDock はいくつかの PB-妥当ポーズを示すが、RMSD ≤ 2 Å に収まるものは少ない。
  • DL 手法は見たことのないタンパク質への一般化が一般に難しく、トレーニングデータに対するターゲット配列同一性が低下するにつれて性能が低下する。
  • ポストドッキングのエネルギー最小化は DiffDock、DeepDock、 TankBind、Uni-Mol の PB-妥当予測を大幅に増加させ、DL アプローチにおける力場物理の欠如を示唆する。一方、Gold と AutoDock Vina では最小化による変化は限定的。
  • PoseBusters は特定の故障モードを露呈する(例:Uni-Mol: 非標準の結合長;TankBind: リガンド内部の衝突;EquiBind: タンパク質–リガンドの衝突)。
  • 全体として、RMSD と物理的妥当性の両方を考慮した場合、現状どの DL ベースの手法も古典的なドッキングツールを上回っていない。
Fig. 2 : Waterfall plot showing the PoseBusters tests as filters for the TankBind predictions on the Astex Diverse data set. The tests in the PoseBuster test suits are described in Table 4 . The leftmost (dotted) bar shows the number of complexes in the test set. The red bars show the number of pred
Fig. 2 : Waterfall plot showing the PoseBusters tests as filters for the TankBind predictions on the Astex Diverse data set. The tests in the PoseBuster test suits are described in Table 4 . The leftmost (dotted) bar shows the number of complexes in the test set. The red bars show the number of pred

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。