QUICK REVIEW

[論文レビュー] deepTarget: End-to-end Learning Framework for microRNA Target Prediction using Deep Recurrent Neural Networks

Byunghan Lee, Junghwan Baek|arXiv (Cornell University)|Mar 30, 2016

MicroRNA in disease regulation参考文献 42被引用数 25

ひとこと要約

deepTargetは、手動による特徴工学を必要とせず、シーケンス表現と相互作用を自動で学習する、双方向LSTMネットワークを用いたエンドツーエンドの深層学習フレームワークを提案する。既存のツールと比較してF-measureで25%以上の向上を達成し、偽陽性を顕著に低減しながらも高い感度を維持する。

ABSTRACT

MicroRNAs (miRNAs) are short sequences of ribonucleic acids that control the expression of target messenger RNAs (mRNAs) by binding them. Robust prediction of miRNA-mRNA pairs is of utmost importance in deciphering gene regulations but has been challenging because of high false positive rates, despite a deluge of computational tools that normally require laborious manual feature extraction. This paper presents an end-to-end machine learning framework for miRNA target prediction. Leveraged by deep recurrent neural networks-based auto-encoding and sequence-sequence interaction learning, our approach not only delivers an unprecedented level of accuracy but also eliminates the need for manual feature extraction. The performance gap between the proposed method and existing alternatives is substantial (over 25% increase in F-measure), and deepTarget delivers a quantum leap in the long-standing challenge of robust miRNA target prediction.

研究の動機と目的

手動で作成された特徴に依存するため、既存のmiRNA標的予測ツールの高い偽陽性率を是正すること。
パrameter設定に敏感で、真の生物学的相互作用を捉えきれないアラインメントベースの手法の限界を克服すること。
生のRNA配列から関連するシーケンス表現と相互作用パターンを自動で発見するエンドツーエンドの学習フレームワークを構築すること。
偽陽性ペアが真の陽性ペアに比べて著しく多い不均衡データセットにおいて、予測の正確性と頑健性を向上させること。
RNN層の活性化を可視化することで、学習された表現の解釈可能性を高め、生物学的に意味のあるパターンを明らかにすること。

提案手法

双方向LSTMオートエンコーダーを用いて、教師なしの方法でmiRNAおよびmRNA配列の深層的・階層的な表現を学習する。
両オートエンコーダーから得られたシーケンス埋め込みを連結し、miRNA-mRNAペアの統合表現を形成する。
シーケンス・トゥ・シーケンス相互作用をモデル化し、標的結合の可能性を予測するために、スタックされた単方向2層RNNを用いる。
ラベル付きの陽性例（真の標的ペア）および陰性例（非標的ペア）を用いた教師あり学習により、フレームワーク全体をエンドツーエンドで訓練する。
不均衡データセットにおける感度と陽性予測値（PPV）を高めるために、訓練中に偽陽性の排除を優先して最適化する。
中間のRNN層の活性化を可視化することで、学習されたパターンの解釈を行い、生物学的に意味のある特徴を発見する可能性を高める。

実験結果

リサーチクエスチョン

RQ1手動で作成された特徴に依存する従来のmiRNA標的予測ツールと比較して、エンドツーエンドの深層学習フレームワークが優れた性能を示せるか？
RQ2アラインメントや特徴工学なしで、再帰ニューラルネットワークが意味のあるシーケンス表現と相互作用パターンをどの程度自動で学習できるか？
RQ3特に不均衡データセットにおいて、deepTargetの性能はF-measure、感度、PPVの観点で既存のツールと比較してどの程度優れているか？
RQ4内部RNN活性化の可視化によって、既知のmiRNA-mRNA結合部位に対応する生物学的に妥当なパターンが明らかになれるか？
RQ5オートエンコーダーやスタックドRNNの使用といったアーキテクチャの選択が、微細な調節的相互作用を検出する能力に与える影響は何か？

主な発見

deepTargetは、次に優れた既存ツールと比較してF-measureが25%以上向上し、顕著な性能格差を示している。
モデルは不均衡データセットにおいて陽性予測値（PPV）と感度を顕著に向上させ、実世界の設定でも頑健であることが示された。
RNN層の活性化の可視化により、既知のmiRNA-mRNA結合部位に対応するヌクレオチド位置で、明確で生物学的に妥当なパターンが観察された。
手動による特徴抽出の必要がなくなり、従来の手法で一般的に見られる手作業で煩雑で誤りの多いプロセスを回避できた。
文献に記載された151の既知の特徴を一切使用しない状態でも、性能向上が達成されたため、エンドツーエンドの表現学習の有効性が裏付けられた。
特にオートエンコーダーとスタックドRNNの使用により、従来のツールが見逃す微細なシーケンス相互作用を効果的に検出できるようになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。