QUICK REVIEW

[논문 리뷰] DiffDock: Diffusion Steps, Twists, and Turns for Molecular Docking

Gabriele Corso, H. Stärk|arXiv (Cornell University)|2022. 10. 04.

Computational Drug Discovery Methods인용 수 323

한 줄 요약

DiffDock은 분자 도킹을 확산 기반의 생성 모델로 재구성하여 리간드 포즈 변환(이동, 회전, 비틀림)을 곱 공간에서 다루고, PDBBind에서 top-1 RMSD <2Å의 최첨단 성능을 달성하며 apo-구조에서도 견고한 성능을 보이고, 빠른 GPU 추론 및 신뢰도 추정치를 제공합니다.

ABSTRACT

Predicting the binding structure of a small molecule ligand to a protein -- a task known as molecular docking -- is critical to drug design. Recent deep learning methods that treat docking as a regression problem have decreased runtime compared to traditional search-based methods but have yet to offer substantial improvements in accuracy. We instead frame molecular docking as a generative modeling problem and develop DiffDock, a diffusion generative model over the non-Euclidean manifold of ligand poses. To do so, we map this manifold to the product space of the degrees of freedom (translational, rotational, and torsional) involved in docking and develop an efficient diffusion process on this space. Empirically, DiffDock obtains a 38% top-1 success rate (RMSD<2A) on PDBBind, significantly outperforming the previous state-of-the-art of traditional docking (23%) and deep learning (20%) methods. Moreover, while previous methods are not able to dock on computationally folded structures (maximum accuracy 10.4%), DiffDock maintains significantly higher precision (21.7%). Finally, DiffDock has fast inference times and provides confidence estimates with high selective accuracy.

연구 동기 및 목표

도킹 목표 및 평가 지표와의 더 나은 정합을 위해 도킹을 생성 모델링 문제로 동기화한다.
도킹 자유도(이동, 회전, 비틀림)를 곱 공간에 매핑한 확산 모델을 개발한다.
PDBBind에서 최첨단 도킹 정확도를 달성하고 apo-구조 및 컴퓨테이셔널하게 생성된 apo-구조에 대한 견고성을 평가한다.
샘플링된 포즈를 순위 매기고 높은 신뢰도로 예측을 선택적으로 가능하게 하는 신뢰도 모델을 제공한다.

제안 방법

리간드 포즈를 이동(= T(3)), 회전(= SO(3)), 비틀림 각도(= SO(2)^m)로 구성된 곱 공간 P = T(3) × SO(3) × SO(2)^m의 변환으로 형식화한다.
곱 공간 P와 포즈 매니폴드 M_c 사이의 단사 매핑 A를 정의하여 다확산을 다루기 쉬운 공간에서 가능하게 한다.
각 요인에 대해 정방향 확산(이동 평면의 가우시안, SO(3) 위의 IGSO(3), SO(2)^m 위의 래핑된 정규분포)을 구성하고 단백질 y에 조건화된 Pose 임베딩을 노이즈 제거하는 점수 모델 s(x,y,t)를 학습한다.
단백질-리간드 구조의 거친 다중 스케일 표현에서 SE(3) 등변 점수 모델을 구성하여 이동, 회전, 비틀림 점수를 예측한다.
2Å RMSD 이내에서의 가능성으로 포즈를 랭크하는 신뢰도 모델 d(x,y)을 도입하고 선택적 예측을 가능하게 한다.
DiffDock을 Blind docking 벤치마크에서 평가하고 GNINA, SMINA, GLIDE, EquiBind, TANKBind와 비교하며 추론 속도와 신뢰도 성능을 분석한다.

실험 결과

연구 질문

RQ1리간드 포즈 변환에 대한 확산 기반 생성 모델이 회귀 기반 및 전통적 탐색 방법에 비해 도킹 정확도를 향상시킬 수 있는가?
RQ2이동, 회전, 비틀림을 곱 공간 확산으로 모델링하는 것이 apo-구조 및 근사 apo-구조(ESMFold)에 대해 retraining 없이도 더 우수한 견고성을 제공하는가?
RQ3신뢰도 모델이 포즈를 효과적으로 순위 매겨 최상위 예측을 신뢰성 있게 제공하고 선택적 예측을 가능하게 하는가?
RQ4DiffDock은 최신 도킹 방법에 비해 GPU에서의 속도는 어떠하며 샘플링된 포즈 수에 따라 어떻게 달라지는가?
RQ5도킹을 위한 곱 공간 확산과 전통적 유클리드 포즈 표현의 장단점은 무엇인가?

주요 결과

DiffDock은 PDBBind 블라인드 도킹에서 RMSD < 2Å의 top-1 성공률 38%를 달성하며 이전 최첨단(전통 23%, 딥러닝 20%)을 넘어섰다.
apo-구조에서 DiffDock은 2Å 이하 RMSD에 대해 21.7%의 정밀도를 유지하며, 이전 방법의 약 10.4% 수준에서 상회하는 견고함을 보인다.
DiffDock은 GPU에서 최적의 탐색 기반 방법(GNINA)보다 3–12배 빠르게 실행되며, 샘플링을 통해 다양한 포즈를 제공하는 우수한 추론 속도도 달성한다.
신뢰도 순위가 매겨진 top-1 포즈는 신뢰도 상위 1/3 만으로도 83%의 RMSD < 2Å를 달성하며 신뢰도와 음의 RMSD 사이의 스피어만 상관계수는 0.68이다.
ESMFold로 생성된 apo-구조에서 DiffDock은 상단 1 예측 중 22%를 2Å 이내에 배치하며 이러한 구조에 대한 최상의 기준선 정확도를 거의 세 배로 증가시킨다.
DiffDock의 2단계 접근 방식(확산 샘플링 + 신뢰도 랭킹)은 다양한 포즈 생성을 가능하게 하면서 과도한 계산 비용 없이 신뢰할 수 있는 포즈 선정을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.