Skip to main content
QUICK REVIEW

[논문 리뷰] PoseBusters: AI-based docking methods fail to generate physically valid poses or generalise to novel sequences

Martin Buttenschoen, Garrett M. Morris|arXiv (Cornell University)|2023. 08. 10.
Computational Drug Discovery Methods인용 수 17
한 줄 요약

논문은 PoseBusters를 소개하며, 단백질-리간드 도킹 포즈의 화학적 타당성과 물리적 가능성을 평가하는 Python RDKit 기반 테스트 스위트이며, 이러한 검사나 새로운 서열 일반화 시 현재 DL 기반 도킹 방법이 고전 도킹 도구를 능가하지 못한다는 점을 보인다.

ABSTRACT

The last few years have seen the development of numerous deep learning-based protein-ligand docking methods. They offer huge promise in terms of speed and accuracy. However, despite claims of state-of-the-art performance in terms of crystallographic root-mean-square deviation (RMSD), upon closer inspection, it has become apparent that they often produce physically implausible molecular structures. It is therefore not sufficient to evaluate these methods solely by RMSD to a native binding mode. It is vital, particularly for deep learning-based methods, that they are also evaluated on steric and energetic criteria. We present PoseBusters, a Python package that performs a series of standard quality checks using the well-established cheminformatics toolkit RDKit. Only methods that both pass these checks and predict native-like binding modes should be classed as having "state-of-the-art" performance. We use PoseBusters to compare five deep learning-based docking methods (DeepDock, DiffDock, EquiBind, TankBind, and Uni-Mol) and two well-established standard docking methods (AutoDock Vina and CCDC Gold) with and without an additional post-prediction energy minimisation step using a molecular mechanics force field. We show that both in terms of physical plausibility and the ability to generalise to examples that are distinct from the training data, no deep learning-based method yet outperforms classical docking tools. In addition, we find that molecular mechanics force fields contain docking-relevant physics missing from deep-learning methods. PoseBusters allows practitioners to assess docking and molecular generation methods and may inspire new inductive biases still required to improve deep learning-based methods, which will help drive the development of more accurate and more realistic predictions.

연구 동기 및 목표

  • RMSD를 넘어서는 도킹 예측의 필요성을 화학적·물리적 타당성 검사 도입으로 동기화한다.
  • Ligand 기하학, 입체화학, 그리고 단백질–리간드 상호작용의 검증을 위한 RDKit 기반 테스트 스위트 PoseBusters를 도입한다.
  • PoseBusters 기준하에 다섯 가지 DL 기반 도킹 방법과 두 가지 고전 도킹 방법을 비교한다.
  • 새로운 단백질 타깃에 대한 일반화 및 예측 후 에너지 최소화의 효과를 평가한다.

제안 방법

  • 세 가지 테스트 그룹으로 PoseBusters 테스트 스위트를 개발한다: 화학적 타당성 및 일관성, 분자내 타당성, 분자간 타당성.
  • RDKit를 사용해 위생화(sanitisation), InChI 표준화, 결합 길이/각도 검사, 평면성 검사, 충돌/부피 중첩 평가를 수행한다.
  • Astex Diverse 및 PoseBusters Benchmark 데이터세트에서 다섯 DL 기반 도킹 방법(DeepDock, DiffDock, EquiBind, TankBind, Uni-Mol) 및 두 고전 방법(AutoDock Vina, Gold)을 평가한다.
  • 알려진 리간드를 상응하는 수용체에 재도킹하고 RMSD, PB-타당성, 에너지 검사를 통해 정량화한다.
  • 선택적으로 AMBER ff14sb/Sage/OpenMM을 사용한 포스트-도킹 에너지 최소화를 적용해 타당성의 개선 여부를 평가한다.
Fig. 1 : Comparative performance of the docking methods. The Astex Diverse set ( $85$ cases) was chosen as an easy test set containing many complexes the five DL-based methods were trained on while the PoseBusters Benchmark set ( $308$ cases) was chosen to be a difficult test set containing complexe
Fig. 1 : Comparative performance of the docking methods. The Astex Diverse set ( $85$ cases) was chosen as an easy test set containing many complexes the five DL-based methods were trained on while the PoseBusters Benchmark set ( $308$ cases) was chosen to be a difficult test set containing complexe

실험 결과

연구 질문

  • RQ1현행 DL 기반 도킹 방법이 PoseBusters 검사에 따라 물리적으로 타당한 리간드 포즈를 생성하는가?
  • RQ2물리적 타당성을 고려할 때 DL 기반 방법은 고전 도킹 도구와 어떻게 비교되는가?
  • RQ3이 방법들이 학습 시점에 보지 못한 새로운 단백질 타깃에 얼마나 잘 일반화되는가?
  • RQ4포스트-도킹 에너지 최소화가 DL 기반 예측의 물리적으로 타당한 포즈를 회복하거나 개선하는가?
  • RQ5PoseBusters 기준에서 DL 기반 방법이 가장 흔히 보이는 실패 모드는 무엇인가?

주요 결과

  • DL 기반 도킹 방법은 RMSD 기반의 성공에도 불구하고 화학/물리적 타당성 검사에 자주 실패한다.
  • Astex Diverse 세트에서 여러 DL 방법이 RMSD ≤ 2 Å를 달성하지만, 모든 PoseBusters 테스트(PB-Valid)를 통과하는 경우는 일부에 불과하다; Gold와 AutoDock Vina는 타당성이 고려될 때 가장 우수하다.
  • PoseBusters Benchmark 세트(새로운 타깃)에서 Gold와 AutoDock Vina가 RMSD와 PB-유효성 모두에서 DL 방법보다 우수하다; DiffDock은 PB-유효 포즈를 보이지만 RMSD ≤ 2 Å 내의 포즈는 거의 없다.
  • DL 방법은 보지 못한 단백질에 일반화하는 데 일반적으로 어려움을 겪으며, 타깃 시퀀스 일치도가 낮아질수록 성능이 악화된다.
  • 포스트-도킹 에너지 최소화는 DiffDock, DeepDock, TankBind, Uni-Mol의 PB-유효 예측을 크게 증가시켜 DL 접근법의 포스필드 물리학 누락을 시사한다; Gold와 AutoDock Vina는 최소화로 인한 변화가 제한적이다.
  • PoseBusters는 특정 실패 모드를 노출한다(예: Uni-Mol: 비표준 결합 길이; TankBind: 리간드 내부 충돌; EquiBind: 단백질–리간드 충돌).
  • 전반적으로, RMSD와 물리적 타당성을 모두 고려할 때 현재 DL 기반 방법은 고전 도킹 도구를 능가하지 못한다.
Fig. 2 : Waterfall plot showing the PoseBusters tests as filters for the TankBind predictions on the Astex Diverse data set. The tests in the PoseBuster test suits are described in Table 4 . The leftmost (dotted) bar shows the number of complexes in the test set. The red bars show the number of pred
Fig. 2 : Waterfall plot showing the PoseBusters tests as filters for the TankBind predictions on the Astex Diverse data set. The tests in the PoseBuster test suits are described in Table 4 . The leftmost (dotted) bar shows the number of complexes in the test set. The red bars show the number of pred

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.