QUICK REVIEW

[论文解读] PepTune: De Novo Generation of Therapeutic Peptides with Multi-Objective-Guided Discrete Diffusion

Shaoqing Tang, Yinuo Zhang|arXiv (Cornell University)|Dec 23, 2024

Protein purification and stability被引用 6

一句话总结

PepTune 引入一种多目标、离散扩散框架，并在蒙特卡洛树搜索（MCTS）引导下生成有效、多样且在结合力、渗透性、溶解性等多种治疗属性方面得到优化的肽 SMILES。

ABSTRACT

We present PepTune, a multi-objective discrete diffusion model for simultaneous generation and optimization of therapeutic peptide SMILES. Built on the Masked Discrete Language Model (MDLM) framework, PepTune ensures valid peptide structures with a novel bond-dependent masking schedule and invalid loss function. To guide the diffusion process, we introduce Monte Carlo Tree Guidance (MCTG), an inference-time multi-objective guidance algorithm that balances exploration and exploitation to iteratively refine Pareto-optimal sequences. MCTG integrates classifier-based rewards with search-tree expansion, overcoming gradient estimation challenges and data sparsity. Using PepTune, we generate diverse, chemically-modified peptides simultaneously optimized for multiple therapeutic properties, including target binding affinity, membrane permeability, solubility, hemolysis, and non-fouling for various disease-relevant targets. In total, our results demonstrate that MCTG for masked discrete diffusion is a powerful and modular approach for multi-objective sequence design in discrete state spaces.

研究动机与目标

激励设计满足多重相互冲突的治疗目标的肽的挑战。
开发一种基于离散扩散的肽 SMILES 生成模型，可以包含非天然氨基酸和环状结构。
引入基于蒙特卡罗树搜索的多目标引导框架，以优化多种性质。
提供肽 SMILES 的性质预测模型以支持目标引导。
展示针对靶蛋白的案例研究，显示结合力和渗透性等方面的改进。

提出的方法

构建 PepMDLM，这是一个使用 RoFormer 主干的掩码扩散语言模型，通过依键遮罩来强制肽键，从而生成肽 SMILES。
引入一种基于键的遮罩调度，优先在生成早期释放肽键的掩码。
添加全局无效 SMILES 损失以惩罚无效的肽结构，并按标记概率缩放罚项。
使用带有 Gumbel 基的弃掩的蒙特卡罗树搜索来探索和扩展序列，在多目标上产生帕累托最优的肽。
在肽 SMILES 上训练回归和分类模型以预测结合亲和力和膜透性，并对溶解度、非粘附性和非污染性进行分类。
进行以 TfR、GLP-1R、GFAP、NCAM1 和 AMHR2 为靶点的案例研究，展示多目标肽设计与对接验证。

实验结果

研究问题

RQ1离散扩散模型是否能够生成有效、经化学修饰的肽 SMILES，并包含非天然氨基酸与环状结构？
RQ2通过 MCTS 的多目标引导是否能够产生在结合亲和力、渗透性、溶解度、非粘附性和溶血性之间达到帕累托最优的肽序列？
RQ3基于肽 SMILES 的性质预测模型是否足够准确以指导治疗目标的生成？
RQ4PepTune 生成的肽在对接和结合方面是否与已知结合物相比具有竞争力，针对临床相关靶标？
RQ5该方法是否可推广到包括膜受体与胞内蛋白在内的多样化靶标？

主要发现

PepMDLM 在经过滤后，长度约为 15 个氨基酸时达到有效肽生成率 45%，长度约为 30 个氨基酸时达到 36%。
PepTune 在 20 次迭代内在 MCTS 指导下达到 100% 的有效性，并保持与无条件模型相当的多样性和唯一性。
PepTune 条件化肽的预测结合亲和力分布高于无条件样本，并以具竞争力的分数对靶标进行对接（如 TfR、GLP-1R）。
对于 TfR，PepTune 产出对接分数低于 -6.0 kcal/mol 的结合物，顶级结合物在 -8.4 kcal/mol，堪比已知结合物 T7。
GLP-1R 条件化肽的对接分数为 -7.4 和 -7.0 kcal/mol，在对接情境中超过一些现有 GLP-1R 激动剂。
GFAP 靶向的胞内靶标被处理，结合物对接分数低于 -7 kcal/mol，支持潜在的胞内参与。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。