Skip to main content
QUICK REVIEW

[论文解读] Contrastive Geometric Learning Unlocks Unified Structure- and Ligand-Based Drug Design

Lisa Schneckenreiter, Sohvi Luukkonen|arXiv (Cornell University)|Jan 14, 2026
Computational Drug Discovery Methods被引用 0
一句话总结

ConGLUDe 通过一个对比几何学习模型将结构信息和配体信息统一,能够从两类数据源学习,实现口袋预测、虚拟筛选和靶点发现,在若干任务上具有最先进的性能。

ABSTRACT

Structure-based and ligand-based computational drug design have traditionally relied on disjoint data sources and modeling assumptions, limiting their joint use at scale. In this work, we introduce Contrastive Geometric Learning for Unified Computational Drug Design (ConGLUDe), a single contrastive geometric model that unifies structure- and ligand-based training. ConGLUDe couples a geometric protein encoder that produces whole-protein representations and implicit embeddings of predicted binding sites with a fast ligand encoder, removing the need for pre-defined pockets. By aligning ligands with both global protein representations and multiple candidate binding sites through contrastive learning, ConGLUDe supports ligand-conditioned pocket prediction in addition to virtual screening and target fishing, while being trained jointly on protein-ligand complexes and large-scale bioactivity data. Across diverse benchmarks, ConGLUDe achieves competitive zero-shot virtual screening performance, substantially outperforms existing methods on a challenging target fishing task, and demonstrates state-of-the-art ligand-conditioned pocket selection. These results highlight the advantages of unified structure-ligand training and position ConGLUDe as a step toward general-purpose foundation models for drug discovery.

研究动机与目标

  • 将结构化数据与配体数据统一用于可扩展的药物设计的动机与目标。
  • 开发一个端到端的单一模型,在没有预定义口袋的情况下处理结合口袋预测。
  • 在进行配体条件口袋预测的同时,执行虚拟筛选与靶点发现。
  • 在大规模生物活性数据与基于结构的复合物数据之间训练一个联合模型。

提出的方法

  • 使用几何蛋白编码器(基于 VN-EGNN)来生成全蛋白和隐式口袋表示。
  • 引入一个快速的配体编码器,通过对指纹/描述子的二维 MLP 投影,将配体映射到联合蛋白–口袋嵌入空间。
  • 将类似 CLIP 的三端对比学习扩展为对齐蛋白、口袋和配体在结构基与配体基批次之间的表示。
  • 在交替的结构基和配体基数据上训练,以从结合构型和生物活性测量中学习。
  • 在不依赖于预定义口袋的情况下,预测候选口袋并按配体条件相似性进行排序。

实验结果

研究问题

  • RQ1单个模型是否能够同时从结构基的结合构型和配体基的生物活性数据中学习?
  • RQ2在蛋白质编码器中集成口袋预测是否能够实现配体条件的口袋选择和可扩展的虚拟筛选?
  • RQ3与专门化基线相比,联合训练对虚拟筛选、靶点发现和口袋预测的性能有何影响?
  • RQ4相对于对接,在保持竞争性准确度的前提下,速度权衡如何?

主要发现

AUROCBEDROCEF 0.5%EF 1%EF 5%
DrugCLIP57.176.238.565.512.27
DrugHash54.587.149.656.142.42
S2 Drug58.238.6911.447.382.97
LigUnity59.8511.336.47
HypSeek62.1011.966.81
DrugCLIP P2Rank a49.722.962.412.441.36
DrugCLIP VN-EGNN a52.523.561.822.581.59
SPRINT73.4012.3015.9010.785.29
ConGLUDe64.06 ± 3.2512.24 ± 2.0615.87 ± 2.0611.03 ± 1.814.68 ± 0.30
  • ConGLUDe 在 LIT-PCBA 上实现了具有竞争力的零-shot 虚拟筛选性能。
  • 在零-shot 设置下,它在靶点发现方面显著优于基线方法(表 2)。
  • 在多个数据集上实现了最先进的配体条件口袋预测(表 4)。
  • 使用 VN-EGNN 的结合口袋预测性能在结构改造后仍然保持(表 3)。
  • ConGLUDe 的推理速度接近快速对比方法,显著快于基于对接的方法(图 3)。
  • 在表 1 中,ConGLUDe 在顶尖口袋相关筛选方面的指标为 64.06 ± 3.25 AUROC、12.24 ± 2.06 BEDROC、15.87 ± 2.06 EF 0.5%、11.03 ± 1.81 EF 1%、4.68 ± 0.30 EF 5%,与若干强基线(如 SPRINT、DrugCLIP)相比达到比较优越的表现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。