[논문 리뷰] Deep-Learning Based Docking Methods: Fair Comparisons to Conventional Docking Workflows
본 논문은 DiffDock 확산 기반 도킹 방법과 기존 도킹 워크플로 간의 공정한 기준선 비교를 제공하며, 동일 테스트 세트에서 성숙한 도킹 방법이 DiffDock보다 우수하다고 나타나고 근접 이웃 학습 사례가 DiffDock의 보고된 성능에 큰 편향을 준다.
The diffusion learning method, DiffDock, for docking small-molecule ligands into protein binding sites was recently introduced. Results included comparisons to more conventional docking approaches, with DiffDock showing superior performance. Here, we employ a fully automatic workflow using the Surflex-Dock methods to generate a fair baseline for conventional docking approaches. Results were generated for the common and expected situation where a binding site location is known and also for the condition of an unknown binding site. For the known binding site condition, Surflex-Dock success rates at 2.0 Angstroms RMSD far exceeded those for DiffDock (Top-1/Top-5 success rates, respectively, were 68/81% compared with 45/51%). Glide performed with similar success rates (67/73%) to Surflex-Dock for the known binding site condition, and results for AutoDock Vina and Gnina followed this pattern. For the unknown binding site condition, using an automated method to identify multiple binding pockets, Surflex-Dock success rates again exceeded those of DiffDock, but by a somewhat lesser margin. DiffDock made use of roughly 17,000 co-crystal structures for learning (98% of PDBBind version 2020, pre-2019 structures) for a training set in order to predict on 363 test cases (2% of PDBBind 2020) from 2019 forward. DiffDock's performance was inextricably linked with the presence of near-neighbor cases of close to identical protein-ligand complexes in the training set for over half of the test set cases. DiffDock exhibited a 40 percentage point difference on near-neighbor cases (two-thirds of all test cases) compared with cases with no near-neighbor training case. DiffDock has apparently encoded a type of table-lookup during its learning process, rendering meaningful applications beyond its reach. Further, it does not perform even close to competitively with a competently run modern docking workflow.
연구 동기 및 목표
- 공결정 구조에 대한 사전 지식 없이 DiffDock 테스트 세트에서 기존 도킹 성능의 공정한 기준선을 확립한다.
- 알려진 결합 부위 위치를 가진 상태와 블라인드 도킹(알려지지 않은 결합 부위) 시나리오에서 도킹 성능을 평가한다.
- DiffDock의 표면적인 성공이 실제 도킹 능력이라기보다 근접 이웃 학습 데이터에 의해 좌우되는지 조사한다.
- 여러 인기 있는 도킹 도구(Surflex-Dock, Glide, AutoDock Vina, Gnina)에 걸쳐 기존 도킹 방법이 DiffDock와 어떻게 비교되는지 정량화한다.
- DiffDock 성능에 대한 학습 데이터 구성의 영향력을 평가하고 CADD에서의 평가를 위한 지침을 제시한다.
제안 방법
- 완전 자동화된 Surflex-Dock 워크플로를 사용하여 기존 도킹의 기준선을 생성한다.
- PDBBind 2020에서 파생된 Clean Test Set으로 DiffDock 테스트 데이터를 처리하고 여러 도킹 도구와 비교한다.
- 알려진 결합 부위 도킹 및 자동 포켓 식별(알려지지 않은 결합 부위) 시나리오를 평가한다.
- DiffDock를 Cognate-ligand 재도킹 성능을 사용하여 Surflex-Dock, Glide, AutoDock Vina, Gnina와 비교한다.
- 근접 이웃 학습 사례가 DiffDock 성능에 미치는 영향을 근접 이웃인지 여부로 분류하여 분석한다.
- 모든 분석의 기초 데이터를 PDBBind 2020 데이터로 삼는다: 약 17,000개의 학습 복합체와 363개의 테스트 케이스(그린 테스트 세트에 290개).
실험 결과
연구 질문
- RQ1알려진 결합 부위 조건에서 성숙한 자동 도킹 워크플로우(Surflex-Dock)가 DiffDock 테스트 세트에서 DiffDock보다 우수한가?
- RQ2알려진 결합 부위에 도킹할 때 DiffDock의 성능은 Glide, AutoDock Vina, Gnina에 비해 어떤가?
- RQ3포켓 식별이 포함된 Surflex-Dock과 비교했을 때 Blind 도킹(알려지지 않은 결합 부위)에서의 DiffDock 성능은 어떠한가?
- RQ4근접 이웃 학습 사례가 DiffDock의 보고된 성공에 어느 정도 영향을 미치며, 이것이 공정한 비교에 어떤 영향을 미치는가?
- RQ5ML 기반 도킹 방법의 CADD 평가 관행에 대해 어떤 시사점을 얻을 수 있는가?
주요 결과
- Surflex-Dock는 알려진 결합 부위에 대해 Top-1/Top-5 성공률이 각각 약 68%와 81%로 나타나며, DiffDock의 45%와 51%를 능가한다.
- Glide는 알려진 결합 부위에 대해 Surflex-Dock과 비슷한 성능을 보이며(Top-1/Top-5 약 67%/73%).
- AutoDock Vina와 Gnina도 같은 패턴을 보이며, 알려진 부위에서 cognate-ligand 재도킹에서 DiffDock보다 우수하다.
- 알려지지 않은 결합 부위(블라인드) 도킹에서, 1.0 Å에서 Top-5는 Surflex-Dock가 DiffDock보다 15–20% 포인트 우수하고 2.0 Å에서 약 10% 포인트 우수하며, 큰 이상치 고려가 있다.
- DiffDock 테스트 케이스의 약 3분의 2(191/290)는 근접 이웃 학습 사례를 포함했고, 훨씬 높은 성능(TOP-1/TOP-5 약 57%/65%)을 보였으며, 비근접 이웃 사례는 약 21%/28%였다.
- 극단적인 근접 이웃 사례(24)는 >90%의 성공을 달성했고, 이는 실제 도킹 일반화가 아닌 근사 기억 효과를 보여준다. DiffDock의 전체 성능은 근접 이웃 하위집합에서도 Surflex-Dock와 Glide보다 열등했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.