[论文解读] Bayesian Optimization for Synthetic Gene Design
本文提出了一种用于合成基因设计的贝叶斯优化框架,采用多输出高斯过程对哺乳动物细胞中的转录和翻译速率进行建模。通过优化多任务获取函数并利用评估函数对候选序列进行排序,该方法识别出蛋白质表达效率更高的基因序列,在10个难表达基因的实验验证中均优于原始序列。
We address the problem of synthetic gene design using Bayesian optimization. The main issue when designing a gene is that the design space is defined in terms of long strings of characters of different lengths, which renders the optimization intractable. We propose a three-step approach to deal with this issue. First, we use a Gaussian process model to emulate the behavior of the cell. As inputs of the model, we use a set of biologically meaningful gene features, which allows us to define optimal gene designs rules. Based on the model outputs we define a multi-task acquisition function to optimize simultaneously severals aspects of interest. Finally, we define an evaluation function, which allow us to rank sets of candidate gene sequences that are coherent with the optimal design strategy. We illustrate the performance of this approach in a real gene design experiment with mammalian cells.
研究动机与目标
- 解决高维序列空间中难以处理的基因设计优化问题。
- 开发一种细胞行为的代理模型,利用生物学上有意义的基因特征捕捉转录和翻译速率。
- 构建一个不仅能生成设计规则,还能生成与最优设计策略一致的排序候选基因序列的框架。
- 在3,810个哺乳动物细胞基因的真实实验数据上验证该方法。
提出的方法
- 使用包含线性与平方指数分量及共区域化矩阵的核函数,多输出高斯过程将转录和翻译速率建模为基因特征的函数。
- 获取函数基于对两种速率平均值的期望改进,以在多目标优化中平衡探索与利用。
- 评估函数通过加权L1距离至最优特征值,对候选基因序列按其与最优设计规则的一致性进行排序。
- 特征表示包括密码子频率、基因长度、GC/AT含量及GC/AT比例,均从基因序列中提取。
- 该框架通过贝叶斯优化迭代选择新序列,结合实验数据更新模型,并优化设计规则。
- 采用基于字符串的重组策略,通过用编码相同氨基酸的冗余密码子替换,为每个目标基因生成1,000个随机序列。
实验结果
研究问题
- RQ1贝叶斯优化能否有效导航高维离散的基因序列空间,以提升蛋白质表达?
- RQ2如何利用代理模型在多目标优化中平衡转录和翻译速率的优化?
- RQ3基于特征的代理模型结合评估函数能否生成生物学上可行的基因序列,并使其优于原始设计?
- RQ4模型预测的性能在多大程度上能与哺乳动物细胞中的真实实验结果保持一致?
主要发现
- 该方法成功识别出可提升10个难表达基因蛋白质表达效率的设计规则。
- 在所有10个案例中,通过评估函数选出的排名最高的重组序列在实验蛋白质表达中均优于原始基因。
- 最佳重组序列的预测性能与真实实验值高度吻合,95%置信区间覆盖了观测结果。
- ARD核的反向长度尺度揭示了决定翻译效率的关键密码子频率和特征。
- 基于期望改进的多任务获取函数有效引导搜索,聚焦于设计空间中的高性能区域。
- 该框架通过整合模型预测与真实哺乳动物细胞数据的实验验证,展示了可扩展性和实用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。