[논문 리뷰] Contrastive Geometric Learning Unlocks Unified Structure- and Ligand-Based Drug Design
ConGLUDe는 구조 기반과 리간드 기반 약물 설계를 대조적 기하학 모델로 통합하여 두 데이터 소스로부터 학습하고, 포켓 예측, 가상 스크리닝 및 표적 탐색에서 최첨단 성능을 달성합니다.
Structure-based and ligand-based computational drug design have traditionally relied on disjoint data sources and modeling assumptions, limiting their joint use at scale. In this work, we introduce Contrastive Geometric Learning for Unified Computational Drug Design (ConGLUDe), a single contrastive geometric model that unifies structure- and ligand-based training. ConGLUDe couples a geometric protein encoder that produces whole-protein representations and implicit embeddings of predicted binding sites with a fast ligand encoder, removing the need for pre-defined pockets. By aligning ligands with both global protein representations and multiple candidate binding sites through contrastive learning, ConGLUDe supports ligand-conditioned pocket prediction in addition to virtual screening and target fishing, while being trained jointly on protein-ligand complexes and large-scale bioactivity data. Across diverse benchmarks, ConGLUDe achieves competitive zero-shot virtual screening performance, substantially outperforms existing methods on a challenging target fishing task, and demonstrates state-of-the-art ligand-conditioned pocket selection. These results highlight the advantages of unified structure-ligand training and position ConGLUDe as a step toward general-purpose foundation models for drug discovery.
연구 동기 및 목표
- 확장 가능한 약물 설계를 위해 구조 기반 데이터와 리간드 기반 데이터를 통합하려는 동기를 부여한다.
- 사전 정의된 포켓 없이 결합-포켓 예측을 처리하는 단일 엔드-투-엔드 모델을 개발한다.
- 리간드 조건부 포켓 예측을 가능하게 하면서 가상 스크리닝과 표적 탐색도 수행한다.
- 구조 기반 복합체와 함께 대규모 생물활성 데이터를 활용하여 공동 모델을 학습한다.
제안 방법
- 전체 단백질 및 암시적 포켓 표현을 생성하기 위해 기하학적 단백질 인코더(VN-EGNN 기반)를 사용한다.
- 지문/묘사자의 2D MLP 투영을 통해 리간드를 단백질–포켓 임베딩 공간에 매핑하는 빠른 리간드 인코더를 도입한다.
- 구조 기반 및 리간드 기반 배치에서 단백질, 포켓, 리간드 표현을 정렬하기 위해 CLIP 유사 3방향 대조 손실을 확장한다.
- 결합 구성과 생물활성 측정을 학습하기 위해 구조 기반과 리간드 기반 데이터를 번갈아 가며 학습한다.
- 사전 정의된 포켓에 의존하지 않고 리간드 조건부 유사도에 따라 후보 포켓을 예측하고 순위화한다.
실험 결과
연구 질문
- RQ1하나의 모델이 구조 기반 결합 구성과 리간드 기반 생물활성 데이터로부터 모두 학습할 수 있는가?
- RQ2단백질 인코더 내 포켓 예측 통합이 리간드 조건부 포켓 선택과 확장 가능한 가상 스크리닝을 가능하게 하는가?
- RQ3전용 기반선과 비교했을 때 공동 학습이 가상 스크리닝, 표적 탐색, 포켓 예측 성능에 어떤 영향을 미치는가?
- RQ4경쟁력 있는 정확도를 유지하면서 도킹에 비해 속도 트레이드오프는 어떠한가?
주요 결과
| AUROC | BEDROC | EF 0.5% | EF 1% | EF 5% | |
|---|---|---|---|---|---|
| DrugCLIP | 57.17 | 6.23 | 8.56 | 5.51 | 2.27 |
| DrugHash | 54.58 | 7.14 | 9.65 | 6.14 | 2.42 |
| S2 Drug | 58.23 | 8.69 | 11.44 | 7.38 | 2.97 |
| LigUnity | 59.85 | 11.33 | – | 6.47 | – |
| HypSeek | 62.10 | 11.96 | – | 6.81 | – |
| DrugCLIP P2Rank a | 49.72 | 2.96 | 2.41 | 2.44 | 1.36 |
| DrugCLIP VN-EGNN a | 52.52 | 3.56 | 1.82 | 2.58 | 1.59 |
| SPRINT | 73.40 | 12.30 | 15.90 | 10.78 | 5.29 |
| ConGLUDe | 64.06 ± 3.25 | 12.24 ± 2.06 | 15.87 ± 2.06 | 11.03 ± 1.81 | 4.68 ± 0.30 |
- ConGLUDe는 LIT-PCBA에서 경쟁력 있는 제로샷 가상 스크리닝 성능을 달성한다.
- 제로샷 설정에서 표적 탐색에서 기저선 대비 현저히 우수하다(표 2).
- 여러 데이터세트에서 리간드 조건부 포켓 예측의 최첨단 성능를 보인다(표 4).
- VN-EGNN으로 결합 부위 예측 성능이 아키텍처 조정에도 유지된다(표 3).
- ConGLUDe의 추론 속도는 빠른 대조적 방법에 필적하며 도킹 기반 접근법보다 현저히 빠르다(그림 3).
- 표 1에서 ConGLUDe는 상위 랭크의 포켓-의존 스크리닝에 대해 64.06 ± 3.25 AUROC, 12.24 ± 2.06 BEDROC, 15.87 ± 2.06 EF 0.5%, 11.03 ± 1.81 EF 1%, 4.68 ± 0.30 EF 5%를 달성하며, SPRINT, DrugCLIP 등 여러 강력한 기저선과 비교하여 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.