Skip to main content
QUICK REVIEW

[论文解读] Machine learning in protein engineering

Kevin Yang, Zachary Wu|arXiv (Cornell University)|Nov 27, 2018
Protein Structure and Dynamics参考文献 91被引用 10
一句话总结

本文提出了一种机器学习(ML)引导的定向进化新范式,用于蛋白质工程,可在无需详细机制模型的情况下实现蛋白质功能的数据驱动优化。通过从实验数据中学习序列-功能关系,ML模型通过迭代预测与选择,加速了性能更优蛋白变体的发现,已在两个案例研究中得到验证,并具备揭示新型蛋白功能的潜力。

ABSTRACT

Machine learning (ML)-guided directed evolution is a new paradigm for biological design that enables optimization of complex functions. ML methods use data to predict how sequence maps to function without requiring a detailed model of the underlying physics or biological pathways. To demonstrate ML-guided directed evolution, we introduce the steps required to build ML sequence-function models and use them to guide engineering, making recommendations at each stage. This review covers basic concepts relevant to using ML for protein engineering as well as the current literature and applications of this new engineering paradigm. ML methods accelerate directed evolution by learning from information contained in all measured variants and using that information to select sequences that are likely to be improved. We then provide two case studies that demonstrate the ML-guided directed evolution process. We also look to future opportunities where ML will enable discovery of new protein functions and uncover the relationship between protein sequence and function.

研究动机与目标

  • 通过替代或补充传统的试错方法,将机器学习确立为蛋白质工程中的核心工具。
  • 解决在生物通路理解不足或过于复杂而难以从第一性原理建模时,优化复杂蛋白功能的挑战。
  • 展示ML模型如何从所有测得变体的实验数据中学习,以指导更优蛋白序列的选择。
  • 为在蛋白质工程工作流程中构建和应用ML序列-功能模型提供实用框架。
  • 探索机器学习在发现新型蛋白功能及解析序列-结构-功能关系方面的未来应用。

提出的方法

  • 利用来自蛋白变体的实验数据开发ML序列-功能模型,以学习氨基酸序列与功能结果之间的映射关系。
  • 应用迁移学习和表征学习技术,从蛋白序列中提取有意义的特征,以提升泛化能力。
  • 采用主动学习策略,迭代选择最具信息量的蛋白变体进行实验测试,以最小化昂贵的筛选成本。
  • 在预测中引入不确定性估计,优先选择预测改进潜力高且预测置信度低的序列。
  • 利用集成模型和神经网络捕捉序列与功能之间复杂的非线性关系。
  • 实施反馈回路,将新实验结果用于重新训练和优化ML模型,实现持续改进。

实验结果

研究问题

  • RQ1在无需深入了解底层生物机制的情况下,机器学习如何加速复杂蛋白功能的优化?
  • RQ2构建能从序列数据预测蛋白功能的有效ML模型所需的关键步骤和组件是什么?
  • RQ3与传统定向进化相比,ML引导的定向进化在效率和成功率方面有何差异?
  • RQ4在蛋白质工程流程中实施ML的实际工作流程和最佳实践有哪些?
  • RQ5机器学习在发现新型蛋白功能及理解序列-结构-功能关系方面,未来有哪些机遇?

主要发现

  • ML引导的定向进化通过学习所有已测数据并引导选择高潜力候选者,显著加速了性能更优蛋白变体的识别。
  • 该方法无需依赖蛋白质折叠或生化通路的详细模型,减少了对昂贵且耗时的实验的依赖。
  • 两个案例研究证明了ML引导流程在真实世界蛋白质工程应用中的实际可行性与有效性。
  • 集成不确定性感知预测可增强对序列空间的探索,提升发现新型功能变体的能力。
  • ML模型能够揭示通过传统实验设计难以检测的复杂非线性序列-功能关系。
  • 机器学习在蛋白质工程中的未来应用有望发现全新的蛋白功能,并深化对序列-结构-功能关系图谱的理解。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。