Skip to main content
QUICK REVIEW

[论文解读] Enhancing Activity Prediction Models in Drug Discovery with the Ability to Understand Human Language

Philipp Seidl, Andreu Vall|arXiv (Cornell University)|Mar 6, 2023
Computational Drug Discovery Methods被引用 30
一句话总结

CLAMP 引入一种模块化架构,具有分离的分子编码器和文本编码器,并通过跨模态对比学习进行训练,以在以文本生物测定描述为条件的情况下实现零样本和少样本活性预测。

ABSTRACT

Activity and property prediction models are the central workhorses in drug discovery and materials sciences, but currently they have to be trained or fine-tuned for new tasks. Without training or fine-tuning, scientific language models could be used for such low-data tasks through their announced zero- and few-shot capabilities. However, their predictive quality at activity prediction is lacking. In this work, we envision a novel type of activity prediction model that is able to adapt to new prediction tasks at inference time, via understanding textual information describing the task. To this end, we propose a new architecture with separate modules for chemical and natural language inputs, and a contrastive pre-training objective on data from large biochemical databases. In extensive experiments, we show that our method CLAMP yields improved predictive performance on few-shot learning benchmarks and zero-shot problems in drug discovery. We attribute the advances of our method to the modularized architecture and to our pre-training objective.

研究动机与目标

  • 通过利用生物测定的自然语言描述来激励并解决药物发现中的零样本活性预测。
  • 克服仅依赖分子结构或生物医学文本的单模态模型的局限性。
  • 通过文本在推理时进行任务条件化,以提升数据高效的预测。
  • 证明在化学数据上进行对比预训练的两模块架构能够产生可迁移的嵌入。

提出的方法

  • 提出一个具有分子编码器 f(m) 和文本编码器 g(a) 的双编码器架构,将输入映射到共享嵌入空间。
  • 使用对比学习目标 L_NCE,使活性分子-测定对的嵌入更紧密,同时将非活性对分离。
  • 定义一个基于嵌入点积的指数形式的评分函数 k(m,a) 来预测活性。
  • 在包含文本生物测定描述的大型化学数据库上对编码器进行预训练,以实现跨模态迁移。
  • 尝试多种候选分子编码器和文本编码器,以确定有效配置,其中包括基于描述符的分子编码器和用于文本的各种 NLP 模型。

实验结果

研究问题

  • RQ1具有分子与语言分开编码器的模块化架构,是否能够对未见生物测定实现零样本活性预测?
  • RQ2在化学数据库上进行跨模态对比预训练是否会产生提升少样本和零样本药物发现任务的表示?
  • RQ3编码器选择(分子 vs 文本)对零样本迁移和表示质量有何影响?
  • RQ4在标准基准上,CLAMP 与现有的零样本和少样本基线相比如何?

主要发现

  • 在多个数据集和分割上,CLAMP 在零样本活性预测方面显著优于基线。
  • 具有分离编码器和跨模态对比预训练的模块化架构能够产生可迁移的嵌入,从而提升少样本和零样本的性能。
  • 仅使用带有 SMILES 标记化的 SLM 在若干零样本任务上的表现落后于 CLAMP 和基线 FH。
  • 在此零样本/少样本 setting 中,基于描述符的分子编码器可以优于基于图结构或 SMILES 的编码器。
  • 在表示学习测试中,CLAMP 交付最佳平均性能并在若干数据集上取得出色结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。