[論文レビュー] Feedback GAN (FBGAN) for DNA: a Novel Feedback-Loop Architecture for Optimizing Protein Functions
この論文は、外部アナライザーを用いて合成DNA配列を目的のタンパク質特性へ最適化するFBGANを提案し、抗菌ペプチドおよびα-ヘリックス形成で実証した。
Generative Adversarial Networks (GANs) represent an attractive and novel approach to generate realistic data, such as genes, proteins, or drugs, in synthetic biology. Here, we apply GANs to generate synthetic DNA sequences encoding for proteins of variable length. We propose a novel feedback-loop architecture, called Feedback GAN (FBGAN), to optimize the synthetic gene sequences for desired properties using an external function analyzer. The proposed architecture also has the advantage that the analyzer need not be differentiable. We apply the feedback-loop mechanism to two examples: 1) generating synthetic genes coding for antimicrobial peptides, and 2) optimizing synthetic genes for the secondary structure of their resulting peptides. A suite of metrics demonstrate that the GAN generated proteins have desirable biophysical properties. The FBGAN architecture can also be used to optimize GAN-generated datapoints for useful properties in domains beyond genomics.
研究の動機と目的
- GANを合成生物学で動機づけ、短長さのタンパク質コーディングDNA配列を生成する(≤50アミノ酸)。
- 外部(非微分可能)アナライザーを介して生成された配列を所望の特性へ最適化するフィードバックループ機構を提案。
- 二つのユースケースをデモンストレーション:抗菌ペプチドの富化とα-螺旋二次構造の富化。
- フィードバックループが生成データを望ましい生物物理的性質と整列させ、遺伝子構造を有効に維持できることを示す。
提案手法
- Wasserstein GAN with gradient penaltyを用いて、タンパク質コーディングDNA配列を最大156ヌクレオチド長まで生成。
- 最終的なsoftmaxをディスクリートヌクレオチド出力のためのGumbel Softmaxに置換。
- 短ペプチドの多様なUniProt由来データセットを用い、cDNAへ変換し長さ156にパディングしたものを学習。
- フィードバックループを導入:各エポックでジェネレータ出力をサンプルし、外部アナライザーでスコアを付け、トップスコアの配列を実データとしてディスクリミネータへ注入し、最も古い実データと入れ替える。
- 差異可能でなくてもよい外部アナライザーを使用(例:微分可能なAMP分類器やPSIPREDベースの二次構造予測子)。
- AMPの場合、予測子として深いRNN(2層のGRU)を使用;二次構造の場合、PSIPREDをブラックボックス予測子として包んでα-螭 Residueをカウント。】
- Note: 原文と同一性を保持するため、最終の文は括弧内の日本語補足として挿入しています。
実験結果
リサーチクエスチョン
- RQ1GANは自然 sequencesに類似する生理物理化学空間の現実的な短タンパク質コーディングDNA配列を生成できるか?
- RQ2非微分可能な外部アナライザーを用いてフィードバックループ経由でGAN出力を望む特性へ誘導できるか?
- RQ3AMP focusとα-ヘリックス focusのアナライザーは、それぞれの性質の配列を生成に富化できるか?
- RQ4フィードバックループは望ましい性質へ最適化しつつ遺伝子構造を有効に保持できるか?
主な発見
| 特性 | 正の AMP | フィードバック前 | フィードバック後 |
|---|---|---|---|
| 長さ | 32.37 ± 17.983 | 21.419 ± 13.190 | 36.992 ± 16.978 |
| モル質量 | 3514.0068 ± 1980.59 | 2419.032 ± 1479.013 | 4023.584 ± 1848.048 |
| 荷電 | 3.8575 ± 2.979 | 2.356 ± 2.447 | 2.708 ± 2.249 |
| 荷電密度 | 0.00123 ± 0.00084 | 0.00127 ± 0.00138 | 0.00091 ± 0.00096 |
| 等電点 | 10.2697 ± 2.046 | 10.143 ± 2.444 | 9.474 ± 1.844 |
| 不安定性指数 | 27.174 ± 26.717 | 37.791 ± 35.697 | 53.145 ± 29.495 |
| 芳香性 | 0.0822 ± 0.0602 | 0.0642 ± 0.0695 | 0.0775 ± 0.066 |
| 脂肪族指数 | 91.859 ± 47.236 | 84.397 ± 45.681 | 84.889 ± 34.837 |
| ボマン性指数 | 0.770 ± 1.500 | 1.801 ± 1.721 | 0.888 ± 1.155 |
| 疎水性比 | 0.435 ± 0.128 | 0.390 ± 0.144 | 0.441 ± 0.109 |
- 生成されたタンパク質コーディング配列は最大50アミノ酸(156ヌクレオチド)で、自然のUniprot cDNA配列と同様の生理化学空間を占める(PCA alignment)。
- 開始コドン、コドン、ストップコドンを含む正しい遺伝子構造が、訓練後に3.125%から77.08%へ改善。
- AMPアナライザー主導のフィードバックは、フィードバック閾値0.8を用いたにもかかわらず約60エポック後に antimicrobial と予測される配列の割合を増加させ、0.99を超える確率を達成。
- AMP指向のフィードバック後に生成されたタンパク質は、既知のAMPへ向けて編集距離が小さくなり、長さ・疎水性・芳香性などの生理化学的特性がAMP様へシフト。
- PSIPREDベースの二次構造フィードバックは、自然タンパク質に比べて生成ペプチドのα-ヘリックス長を増加させ、二次構造の最適化が成功したことを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。