Skip to main content
QUICK REVIEW

[论文解读] PepCVAE: Semi-Supervised Targeted Design of Antimicrobial Peptide Sequences

Payel Das, Kahini Wadhawan|arXiv (Cornell University)|Oct 17, 2018
Antimicrobial Peptides and Activities被引用 27
一句话总结

PepCVAE 是一种半监督变分自编码器,通过利用 170 万条未标记肽序列和 15,000 条标记的 AMP/非 AMP 序列,生成新型抗菌肽(AMP)序列。通过联合训练变自编码器与解耦的 AMP 分类器,该模型在保持生物合理性的同时实现了高长程序列多样性,并能够可控地生成强效、螺旋结构的 AMP,其分布保真度显著优于基线 VAE。

ABSTRACT

Given the emerging global threat of antimicrobial resistance, new methods for next-generation antimicrobial design are urgently needed. We report a peptide generation framework PepCVAE, based on a semi-supervised variational autoencoder (VAE) model, for designing novel antimicrobial peptide (AMP) sequences. Our model learns a rich latent space of the biological peptide context by taking advantage of abundant, unlabeled peptide sequences. The model further learns a disentangled antimicrobial attribute space by using the feedback from a jointly trained AMP classifier that uses limited labeled instances. The disentangled representation allows for controllable generation of AMPs. Extensive analysis of the PepCVAE-generated sequences reveals superior performance of our model in comparison to a plain VAE, as PepCVAE generates novel AMP sequences with higher long-range diversity, while being closer to the training distribution of biological peptides. These features are highly desired in next-generation antimicrobial design.

研究动机与目标

  • 应对抗菌素耐药性(AMR)上升和抗生素研发管线匮乏所带来的迫切新抗菌药物需求。
  • 克服传统 AMP 设计的局限性,包括穷举搜索的限制、对特征工程的依赖以及生成过程缺乏控制。
  • 开发一种生成模型,从大量未标记肽数据和有限标记 AMP 数据中学习,以生成多样化且具有生物学相关性的序列。
  • 通过将关键抗菌属性(如电荷、疏水性)解耦为可解释的潜在因子,实现 AMP 的可控生成。
  • 生成具有高结构与功能潜力的新型 AMP,包括两亲性α-螺旋结构,以供计算模拟和未来的体外验证。

提出的方法

  • 在 170 万条未标记肽序列上训练变分自编码器(VAE),以学习丰富且具有生物学意义的潜在空间。
  • 在 15,000 条标记的 AMP/非 AMP 序列上联合训练独立的 AMP 二分类器,以引导解耦表示学习。
  • 利用分类器的反馈正则化 VAE 的潜在空间,实现与抗菌活性相关属性的解耦。
  • 从解耦的潜在空间采样,生成具有可控特性的新型 AMP 序列。
  • 通过分子特征分析(电荷、疏水性、疏水矩)和 3D 结构预测(通过 PEP-FOLD3)评估生成序列。
  • 使用 n-gram 相似性与困惑度指标,量化生成序列相对于训练数据的序列多样性和生物合理性。

实验结果

研究问题

  • RQ1半监督 VAE 框架能否有效利用大规模未标记肽数据和有限标记 AMP 数据,生成新颖且具有生物合理性的 AMP 序列?
  • RQ2在潜在空间中解耦抗菌属性是否能实现对具有期望特性的 AMP 的可控生成?
  • RQ3PepCVAE 生成的 AMP 的长程多样性与仅在标记 AMP 上训练的标准 VAE 相比如何?
  • RQ4PepCVAE 生成的序列在多大程度上保留了生物特性,如电荷模式、疏水性及螺旋倾向性?
  • RQ5对生成序列的计算筛选能否识别出高活性、广谱的 AMP 候选分子,其结构特征与抗菌活性相关?

主要发现

  • PepCVAE 生成的序列在长程多样性方面显著优于基线 VAE,n-gram 相似性指标显示,与训练 AMP 共享的 n-gram(n ≥ 3)数量更低。
  • 该模型保持了生物合理性,语言模型评估显示困惑度值较低,表明其局部序列一致性与天然肽高度一致。
  • PepCVAE 生成的序列在分布相似性度量上更接近真实生物肽分布,验证了其分布保真度。
  • 在 11 个高活性 PepCVAE 生成的 AMP(l=15)中,有 9 个在 3D 建模中呈现螺旋结构,与已知的两亲性螺旋 AMP 一致。
  • 生成序列的疏水矩(μH)与已知 AMP 一致,表明其保留了两亲性特征。
  • 该框架成功从 5,000 个生成序列中识别出 45 个高概率 AMP 候选,其中 11 个被选中进行 3D 结构预测与活性排序。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。