Skip to main content
QUICK REVIEW

[论文解读] Retrieval-Augmented Foundation Models for Matched Molecular Pair Transformations to Recapitulate Medicinal Chemistry Intuition

Bo Pan, Peter Zhiping Zhang|arXiv (Cornell University)|Feb 18, 2026
Computational Drug Discovery Methods被引用 0
一句话总结

本文提出 MMPT-FM,是用于变量到变量的匹配分子对变换的基础模型;另外提出 MMPT-RAG,一种检索增强方法,在基于 MMPT 的类比设计中提升可控性、创新性与召回率。

ABSTRACT

Matched molecular pairs (MMPs) capture the local chemical edits that medicinal chemists routinely use to design analogs, but existing ML approaches either operate at the whole-molecule level with limited edit controllability or learn MMP-style edits from restricted settings and small models. We propose a variable-to-variable formulation of analog generation and train a foundation model on large-scale MMP transformations (MMPTs) to generate diverse variables conditioned on an input variable. To enable practical control, we develop prompting mechanisms that let the users specify preferred transformation patterns during generation. We further introduce MMPT-RAG, a retrieval-augmented framework that uses external reference analogs as contextual guidance to steer generation and generalize from project-specific series. Experiments on general chemical corpora and patent-specific datasets demonstrate improved diversity, novelty, and controllability, and show that our method recovers realistic analog structures in practical discovery scenarios.

研究动机与目标

  • 将类比设计形式化为使用 MMPT 的与上下文无关的局部编辑(vA -> vB)。
  • 从药物样化学数据中训练大规模 MMPT 基础模型以学习变换先验。
  • 通过结构模板提示实现用户可控生成。
  • 引入 MMPT-RAG,通过检索参考类比并进行簇内模板引导来引导生成。
  • 在分布内和基于专利的类比生成任务中展示更高的召回、新颖性和可信度。

提出的方法

  • 将 MMPT 表示为基于 SMARTS 的变量到变量序列,并在 MMPDB 从 ChEMBL 提取的约 80 万条 MMPT 上训练一个序列到序列的编码-解码器。
  • 从一个专注于化学的预训练模型(T5Chem)初始化,以保留化学语义。
  • 实现带提示的生成与掩码填充,如用户提供部分结构约束 T 以获得 vB。
  • 开发 MMPT-RAG:从参考 MMPT 数据集中检索相似的 vA,簇内对应的 vB,提取基于 MCS 的模板 Tk,并在多个簇模板的条件下生成。
  • 理论分析显示 MMPT-RAG 在基础模型和参考分布之间执行一个凸分布偏移,由自适应的 alpha 参数控制。
  • 提供三项评估任务(分布内、专利内、跨专利)以在不同设置下评估召回、新颖性和有效性。
Figure 1 . An example of (a) Matched Molecular Pairs (MMP); (b) Matched Molecular Pair Transformation (MMPT) and its textual representation.
Figure 1 . An example of (a) Matched Molecular Pairs (MMP); (b) Matched Molecular Pair Transformation (MMPT) and its textual representation.

实验结果

研究问题

  • RQ1MMPTs 是否能够捕捉药物化学中的可迁移、与上下文无关的局部编辑?
  • RQ2基础模型在大规模数据上学习 MMPT 先验并生成有效、新颖、可迁移的替换有多好?
  • RQ3通过提示是否可以在不重新训练的情况下实现可控、结构引导的 MMPT 生成?
  • RQ4检索增强是否能将 MMPT 生成引导到项目特定模式和罕见但有意义的变换?
  • RQ5在分布内、专利内和跨专利的类比生成任务中,与基线相比,MMPT-RAG 的表现如何?

主要发现

  • MMPT-FM 在所有任务中对真实变换的召回率显著高于基线。
  • MMPT-RAG 进一步提升召回并在任务 1(ChEMBL)上达到最高的新颖性。
  • 在专利相关任务中,MMPT-FM 和 MMPT-RAG 显示出对训练集内的强召回和对训练集外的有意义召回,表明对未见变换具有泛化能力。
  • 检索增强将生成引导至不太常见但化学上有意义的变换,从而提高对化学空间的覆盖。
  • 带结构模板的提示生成在较高候选数下几乎能完美恢复 GT,并保持较高的有效性。
  • 可视化显示 MMPT-RAG 在 PMV17 的化学空间覆盖范围超越基础模型,且生成与参考分布对齐。
Figure 2 . Overview of the proposed MMPT framework. (a) The foundation model (MMPT-FM) is trained on large-scale MMPT data. (b) MMPT-FM supports controllable generation via masked template prompting. (c) MMPT-RAG augments generation with retrieval, clustering, and MCS-based template extraction to gu
Figure 2 . Overview of the proposed MMPT framework. (a) The foundation model (MMPT-FM) is trained on large-scale MMPT data. (b) MMPT-FM supports controllable generation via masked template prompting. (c) MMPT-RAG augments generation with retrieval, clustering, and MCS-based template extraction to gu

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。