Skip to main content
QUICK REVIEW

[论文解读] PepTune: De Novo Generation of Therapeutic Peptides with Multi-Objective-Guided Discrete Diffusion

Shaoqing Tang, Yinuo Zhang|arXiv (Cornell University)|Dec 23, 2024
Protein purification and stability被引用 6
一句话总结

PepTune 引入一种多目标、离散扩散框架,并在蒙特卡洛树搜索(MCTS)引导下生成有效、多样且在结合力、渗透性、溶解性等多种治疗属性方面得到优化的肽 SMILES。

ABSTRACT

We present PepTune, a multi-objective discrete diffusion model for simultaneous generation and optimization of therapeutic peptide SMILES. Built on the Masked Discrete Language Model (MDLM) framework, PepTune ensures valid peptide structures with a novel bond-dependent masking schedule and invalid loss function. To guide the diffusion process, we introduce Monte Carlo Tree Guidance (MCTG), an inference-time multi-objective guidance algorithm that balances exploration and exploitation to iteratively refine Pareto-optimal sequences. MCTG integrates classifier-based rewards with search-tree expansion, overcoming gradient estimation challenges and data sparsity. Using PepTune, we generate diverse, chemically-modified peptides simultaneously optimized for multiple therapeutic properties, including target binding affinity, membrane permeability, solubility, hemolysis, and non-fouling for various disease-relevant targets. In total, our results demonstrate that MCTG for masked discrete diffusion is a powerful and modular approach for multi-objective sequence design in discrete state spaces.

研究动机与目标

  • 激励设计满足多重相互冲突的治疗目标的肽的挑战。
  • 开发一种基于离散扩散的肽 SMILES 生成模型,可以包含非天然氨基酸和环状结构。
  • 引入基于蒙特卡罗树搜索的多目标引导框架,以优化多种性质。
  • 提供肽 SMILES 的性质预测模型以支持目标引导。
  • 展示针对靶蛋白的案例研究,显示结合力和渗透性等方面的改进。

提出的方法

  • 构建 PepMDLM,这是一个使用 RoFormer 主干的掩码扩散语言模型,通过依键遮罩来强制肽键,从而生成肽 SMILES。
  • 引入一种基于键的遮罩调度,优先在生成早期释放肽键的掩码。
  • 添加全局无效 SMILES 损失以惩罚无效的肽结构,并按标记概率缩放罚项。
  • 使用带有 Gumbel 基的弃掩的蒙特卡罗树搜索来探索和扩展序列,在多目标上产生帕累托最优的肽。
  • 在肽 SMILES 上训练回归和分类模型以预测结合亲和力和膜透性,并对溶解度、非粘附性和非污染性进行分类。
  • 进行以 TfR、GLP-1R、GFAP、NCAM1 和 AMHR2 为靶点的案例研究,展示多目标肽设计与对接验证。

实验结果

研究问题

  • RQ1离散扩散模型是否能够生成有效、经化学修饰的肽 SMILES,并包含非天然氨基酸与环状结构?
  • RQ2通过 MCTS 的多目标引导是否能够产生在结合亲和力、渗透性、溶解度、非粘附性和溶血性之间达到帕累托最优的肽序列?
  • RQ3基于肽 SMILES 的性质预测模型是否足够准确以指导治疗目标的生成?
  • RQ4PepTune 生成的肽在对接和结合方面是否与已知结合物相比具有竞争力,针对临床相关靶标?
  • RQ5该方法是否可推广到包括膜受体与胞内蛋白在内的多样化靶标?

主要发现

  • PepMDLM 在经过滤后,长度约为 15 个氨基酸时达到有效肽生成率 45%,长度约为 30 个氨基酸时达到 36%。
  • PepTune 在 20 次迭代内在 MCTS 指导下达到 100% 的有效性,并保持与无条件模型相当的多样性和唯一性。
  • PepTune 条件化肽的预测结合亲和力分布高于无条件样本,并以具竞争力的分数对靶标进行对接(如 TfR、GLP-1R)。
  • 对于 TfR,PepTune 产出对接分数低于 -6.0 kcal/mol 的结合物,顶级结合物在 -8.4 kcal/mol,堪比已知结合物 T7。
  • GLP-1R 条件化肽的对接分数为 -7.4 和 -7.0 kcal/mol,在对接情境中超过一些现有 GLP-1R 激动剂。
  • GFAP 靶向的胞内靶标被处理,结合物对接分数低于 -7 kcal/mol,支持潜在的胞内参与。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。