Skip to main content
QUICK REVIEW

[論文レビュー] DNA-Level Splice Junction Prediction using Deep Recurrent Neural Networks

Byunghan Lee, Taehoon Lee|arXiv (Cornell University)|Dec 16, 2015
RNA Research and Splicing参考文献 28被引用数 43
ひとこと要約

本論文は、学習された密集型ヌクレオチド埋め込みとLSTM、GRU、iRNNなどのアーキテクチャを用いて、DNAレベルのスプライスジャンクション予測のための深層再帰ニューラルネットワーク(RNN)手法を提案する。この手法は、スプライスジャンクション分類において94.3%のF1スコアを達成し、SVMおよびディープベルーフネットワーク(DBN)のベースラインを著しく上回り、コンセンサス的および非コンセンサス的スプライス部位の両方を検出する精度が優れていることを示している。

ABSTRACT

A eukaryotic gene consists of multiple exons (protein coding regions) and introns (non-coding regions), and a splice junction refers to the boundary between a pair of exon and intron. Precise identification of spice junctions on a gene is important for deciphering its primary structure, function, and interaction. Experimental techniques for determining exon/intron boundaries include RNA-seq, which is often accompanied by computational approaches. Canonical splicing signals are known, but computational junction prediction still remains challenging because of a large number of false positives and other complications. In this paper, we exploit deep recurrent neural networks (RNNs) to model DNA sequences and to detect splice junctions thereon. We test various RNN units and architectures including long short-term memory units, gated recurrent units, and recently proposed iRNN for in-depth design space exploration. According to our experimental results, the proposed approach significantly outperforms not only conventional machine learning-based methods but also a recent state-of-the-art deep belief network-based technique in terms of prediction accuracy.

研究の動機と目的

  • 真核生物遺伝子における計算的スプライスジャンクション予測の精度を向上させること、特に従来の手法が見逃しがちな非コンセンサス的スプライスシグナルを対象とすること。
  • スプライス部位周辺の逐次的DNAパターンをモデル化するための深層再帰ニューラルネットワーク(RNN)の有効性を検討すること。
  • トレーニング中に学習される密集型で分散型のヌクレオチド埋め込みを用いることで、ワンホットエンコーディングやスパースなベクトル表現の限界を克服すること。
  • LSTM、GRU、iRNNといった異なるRNNユニットがスプライスジャンクション検出タスクにおいてどのように性能を発揮するかを評価・比較すること。
  • アライメントベースのRNA-seq手法に補完的となる深層学習フレームワークを構築し、微細で非コンセンサス的なスプライシングシグナルを同定できること。

提案手法

  • 1ホットエンコーディングに代えて、ヌクレオチド1つあたり4次元の学習済み密集型ベクトルを用いることで、表現学習と一般化性能の向上を図る。
  • LSTM、GRU、またはiRNNユニットを用いたスタックドRNN層を用い、スプライスジャンクション周辺のDNA配列における長距離依存性を捉える。
  • 最終的なRNN層は、シグモイド活性化関数を用いた全結合層により、3クラス分類(ドナー、アセプター、ノンサイト)の出力を生成する。
  • ドロップアウトを正則化に用い、Adam最適化法を用いてマルチクラス対数損失関数でネットワークをトレーニングする。
  • 入力配列長は、エクソン境界を中心に固定して60ヌクレオチドとする。これにより、ドナー、アセプター、ノンサイトクラスのトレーニング例が生成される。
  • モデルは、コンセンサス的および非コンセンサス的スプライスサイトを含むUCSC-hg38およびUCSC-hg19データセットで評価される。

実験結果

リサーチクエスチョン

  • RQ1深層再帰ニューラルネットワークは、DNA配列におけるコンセンサス的および非コンセンサス的スプライスジャンクションシグナルを効果的に学習・検出できるか?
  • RQ2LSTM、GRU、iRNNといった異なるRNNユニットは、スプライスジャンクション予測タスクにおいてどのように性能を発揮するか?
  • RQ3この文脈において、学習済み密集型埋め込みを用いることで、1ホットエンコーディングに比べて予測精度が向上するか?
  • RQ4RNNベースのモデルは、SVMやディープベルーフネットワーク(DBN)といった従来の機械学習手法を上回る性能を示せるか?
  • RQ5ネットワークの深さ(例:スタックド層)が性能に与える影響は何か?また、性能の飽和(次第に効果が薄くなる現象)は発生するか?

主な発見

  • 提案されたRNNベースの手法は、LSTMユニットを用いてテストF1スコア94.3%を達成し、次に優れた手法であるディープベルーフネットワーク(DBN)の88.8%を著しく上回った。
  • LSTMベースのアーキテクチャが最も高い性能を示し、次いでGRU(92.63%)、iRNN(92.10%)の順であった。また、調査された深さを超えてネットワークを深くしても顕著な性能向上は得られなかった。
  • iRNNモデルは初期段階での収束が速かったが、後期のトレーニングエポックで不安定さと性能低下を示した。
  • 学習済み密集型埋め込みの使用により、スパースかつ効果が薄い表現となる1ホットエンコーディングに比べ、一般化性能が向上した。
  • 本手法は、コンセンサス的および非コンセンサス的スプライスシグナルを含むUCSC-hg38およびUCSC-hg19データセットにおいても、安定した性能を示した。
  • 最先端のDBNベース手法に比べ6.19ポイントの精度向上を達成し、スプライスジャンクション検出における優位性を強く示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。