QUICK REVIEW

[论文解读] Feedback GAN (FBGAN) for DNA: a Novel Feedback-Loop Architecture for Optimizing Protein Functions

Anvita Gupta, James Zou|arXiv (Cornell University)|Apr 5, 2018

RNA and protein synthesis mechanisms参考文献 17被引用 63

一句话总结

本论文提出 FBGAN，一种利用外部分析器优化合成DNA序列以获得所需蛋白质性质的反馈回路GAN，在抗菌肽和α-螺旋形成方面得到验证。

ABSTRACT

Generative Adversarial Networks (GANs) represent an attractive and novel approach to generate realistic data, such as genes, proteins, or drugs, in synthetic biology. Here, we apply GANs to generate synthetic DNA sequences encoding for proteins of variable length. We propose a novel feedback-loop architecture, called Feedback GAN (FBGAN), to optimize the synthetic gene sequences for desired properties using an external function analyzer. The proposed architecture also has the advantage that the analyzer need not be differentiable. We apply the feedback-loop mechanism to two examples: 1) generating synthetic genes coding for antimicrobial peptides, and 2) optimizing synthetic genes for the secondary structure of their resulting peptides. A suite of metrics demonstrate that the GAN generated proteins have desirable biophysical properties. The FBGAN architecture can also be used to optimize GAN-generated datapoints for useful properties in domains beyond genomics.

研究动机与目标

动机：在合成生物学中使用GAN来生成短长度的蛋白质编码DNA序列（≤50个氨基酸）。
提出一个反馈回路机制，通过外部（非可微）分析器优化生成序列以获得所需属性。
展示两个应用用例：提升抗菌肽的富集以及提升α螺旋二级结构的富集。
展示该反馈回路能够使生成数据与期望的生物物理性质对齐并保持有效的基因结构。

提出的方法

使用带梯度惩罚的Wasserstein GAN来生成长度最多156个核苷酸的蛋白质编码DNA序列。
将最终的 softmax 替换为 Gumbel Softmax，以获得离散的核苷酸输出。
在一个来自Uniprot的多样短肽数据集上训练，转换为cDNA并填充到长度156。
引入一个反馈回路：每个epoch对生成器输出进行取样，用外部分析器评分，并将得分最高的序列作为真实数据注入判别器，替换最旧的真实数据。
使用一个不需要可微的外部分析器（例如可微分的AMP分类器或基于PSIPRED的二级结构预测器）。
在AMP情形中，使用一个深度RNN（两层GRU）作为预测器；在二级结构情形中，将PSIPRED包装为一个黑箱预测器来计数α-螺旋残基。

实验结果

研究问题

RQ1GAN是否能够生成在生物物理化学空间中与自然序列相似的现实短蛋白质编码DNA序列？
RQ2是否可以使用非可微的外部分析器通过反馈回路引导GAN输出达到目标属性？
RQ3以AMP为焦点的分析器和以α-螺旋为焦点的分析器是否能成功提升生成序列在各自属性上的富集？
RQ4反馈回路在优化目标属性的同时是否能保持有效的基因结构？

主要发现

Property	Positive AMP	Before Feedback	After Feedback
Length	32.37 ± 17.983	21.419 ± 13.190	36.992 ± 16.978
Molar Weight	3514.0068 ± 1980.59	2419.032 ± 1479.013	4023.584 ± 1848.048
Charge	3.8575 ± 2.979	2.356 ± 2.447	2.708 ± 2.249
Charge Density	0.00123 ± 0.00084	0.00127 ± 0.00138	0.00091 ± 0.00096
pI	10.2697 ± 2.046	10.143 ± 2.444	9.474 ± 1.844
Instability Index	27.174 ± 26.717	37.791 ± 35.697	53.145 ± 29.495
Aromaticity	0.0822 ± 0.0602	0.0642 ± 0.0695	0.0775 ± 0.066
Aliphatic Index	91.859 ± 47.236	84.397 ± 45.681	84.889 ± 34.837
Boman Index	0.770 ± 1.500	1.801 ± 1.721	0.888 ± 1.155
Hydrophobicity Ratio	0.435 ± 0.128	0.390 ± 0.144	0.441 ± 0.109

生成的蛋白质编码序列长度最多50个氨基酸（156个核苷酸），在生物物理化学空间上与自然的Uniprot cDNA序列类似（PCA对齐）。
训练后正确的基因结构（起始密码子、密码子、终止密码子）从3.125%提升到77.08%。
AMP分析器引导的反馈提高了被预测为抗菌的序列比例，在大约60个epoch后尽管反馈阈值设为0.8，仍超过0.99的概率。
经过AMP定向反馈生成的蛋白在编辑距离已知AMP方面更低，并在若干生物物理化学性质上向AMP样本值方向移动（长度、疏水性、芳香性等）。
基于PSIPRED的二级结构反馈相对于自然蛋白，增加了生成肽段的α-螺旋长度，表明二级结构优化成功。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。