Skip to main content
QUICK REVIEW

[論文レビュー] Generating and designing DNA with deep generative models

Nathan Killoran, Leo J. Lee|arXiv (Cornell University)|Dec 17, 2017
RNA and protein synthesis mechanisms参考文献 34被引用数 110
ひとこと要約

この論文はDNAのための3つの深層生成アプローチを提案する:GANをベースとしたDNA配列生成器、活性化最大化のDNA適応、そして望ましい特性を持つ配列を調整するためのジェネレータ–予測器設計の共同フレームワーク、タンパク質結合プローブ設計への適用で示される。

ABSTRACT

We propose generative neural network methods to generate DNA sequences and tune them to have desired properties. We present three approaches: creating synthetic DNA sequences using a generative adversarial network; a DNA-based variant of the activation maximization ("deep dream") design method; and a joint procedure which combines these two approaches together. We show that these tools capture important structures of the data and, when applied to designing probes for protein binding microarrays, allow us to generate new sequences whose properties are estimated to be superior to those found in the training data. We believe that these results open the door for applying deep generative models to advance genomics research.

研究の動機と目的

  • DNA配列生成と設計に深層生成モデルを動機づけて適用する。
  • 現実的なDNA配列を生成するGANベースの生成器を開発する。
  • 性質駆動設計のために離散的なDNAデータへ活性化最大化を適応させる。
  • 配列を調整するために性質予測器と結合した生成器を組み合わせた共同アーキテクチャを作成する。
  • トレーニングデータを超えた結合特性を強化したDNAプローブの設計を実証する。

提案手法

  • DNAをワンホットエンコードされたシーケンスとして表現し、現実的なシーケンス分布を学習するためにWasserstein GAN (WGAN) を訓練する。
  • ソフトマックス前層を持つ連続的潜在空間zを用いてシーケンス分布へ写像し、勾配ベースの生成を可能にする。
  • 潜在空間で活性化最大化を適用し、予測器P(x)を用いてターゲット特性の最適化を行う。
  • 現実性と特性最適化を同時に実現できる jointly z -> x -> t のパイプラインを形成するため、活性化最大化を生成器Gと拡張する。
  • 明示的なモチーフ予測器(PWMベース)を用いて、生成されたシーケンスにモチーフ一致を示す設計を行う。
  • 実験的結合データで訓練された学習済み予測器(オラクル)を活用して、結合スコアの高い方向へシーケンス設計をガイドする。
  • 生成器を介して現実性を制約しつつ、複数の予測器を同時に最適化して多属性最適化を探索する。

実験結果

リサーチクエスチョン

  • RQ1GANは現実的なDNA配列構造を学習し、トレーニングデータセットを超える一般化を示すことができるか?
  • RQ2連続的緩和を用いて離散的なDNA配列へ活性化最大化を適応させ、ターゲット特性を最適化できるか?
  • RQ3共同の生成器–予測器アーキテクチャは、ターゲット特性を最大化しつつ生物学的に妥当なDNA配列を生成するか?
  • RQ4複数の結合特性や制約のバランスを取り、トレーニングデータを超えて一般化するシーケンス設計は可能か?

主な発見

  • 50nt長のヒト染色体1の配列で訓練されたWGANは現実的なDNA構造を捉え、トレーニングデータへの過学習を起こさない。
  • GAN生成シーケンスはトレーニングデータと類似した認識可能なエクソンスプライスサイト信号を示す。
  • 連続的潜在表現を用いたDNAの活性化最大化は、シーケンスを望ましい特性へと向けることができる。
  • 共同生成器–予測器フレームワークは、予測器が制限データで訓練されていても、トレーニングデータ内のどの例よりも高い結合スコアを持つシーケンスを生み出せる。
  • 本手法は多属性設計をサポートし、現実性を保ったまま競合する結合スコア間でトレードオフするシーケンスを可能にする。
  • 潜在空間の探索は、潜在ベクトルと生成シーケンスとの補完のような関係など、意味のある構造を明らかにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。