[论文解读] Generating and designing DNA with deep generative models
论文提出三种用于DNA的深度生成方法:基于GAN的DNA序列生成器、DNA适配的激活最大化,以及联合生成器–预测器设计框架,用于定制具有期望特性的序列,在蛋白质结合探针设计中得到演示。
We propose generative neural network methods to generate DNA sequences and tune them to have desired properties. We present three approaches: creating synthetic DNA sequences using a generative adversarial network; a DNA-based variant of the activation maximization ("deep dream") design method; and a joint procedure which combines these two approaches together. We show that these tools capture important structures of the data and, when applied to designing probes for protein binding microarrays, allow us to generate new sequences whose properties are estimated to be superior to those found in the training data. We believe that these results open the door for applying deep generative models to advance genomics research.
研究动机与目标
- 激发并应用深度生成模型于DNA序列生成与设计。
- 开发基于GAN的生成器以产生逼真的DNA序列。
- 将激活最大化适应离散的DNA数据以实现属性驱动的设计。
- 创建一个结合生成器与性质预测器的联合架构以调节序列。
- 展示设计出在结合属性上超越训练数据的DNA探针。
提出的方法
- 将DNA表示为一热编码序列,并训练Wasserstein GAN (WGAN)以学习逼真的序列分布。
- 使用带有softmax前层的连续潜在空间z将映射到序列分布,便于基于梯度的生成。
- 在潜在空间中应用激活最大化,以利用预测器P(x)为目标性质优化序列。
- 将激活最大化扩展为与生成器G的联合z -> x -> t流程,允许同时实现真实性与性质优化。
- 使用明确的基序预测器(基于PWM)来设计序列,以演示在生成序列中匹配基序。
- 利用在实验结合数据上训练的学习预测器(oracle)来引导序列设计以获得更高的结合分数。
- 通过联合优化多个预测器来探索多性质优化,同时通过生成器限制真实度。
实验结果
研究问题
- RQ1GAN 是否能够学习逼真的DNA序列结构并展现超出训练集的泛化能力?
- RQ2是否可以通过连续松弛将激活最大化适配离散DNA序列,以优化目标属性?
- RQ3联合生成器–预测器架构是否能够产生在最大化目标属性的同时保持生物学可行性的DNA序列?
- RQ4是否可能设计在多种结合属性或约束之间取得平衡的序列,并能超越训练数据进行泛化?
主要发现
- 在50nt的人类染色体1序列上训练的WGAN捕捉到逼真的DNA结构,并且对训练数据并不过拟合。
- GAN生成的序列显示出与训练数据类似的可识别的外显子剪接位点信号。
- 在DNA的连续潜在表示上进行激活最大化可以将序列引导到期望的性质。
- 联合生成器–预测器框架可以产生比训练数据中任何示例更高的结合分数的序列,即使预测器是在受限数据上训练的。
- 该方法支持多属性设计,使序列在相互竞争的结合分数之间进行权衡,同时保持真实感。
- 潜在空间探索揭示有意义的结构,如潜在向量与生成序列之间的互补性关系。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。