QUICK REVIEW

[論文レビュー] deepMiRGene: Deep Neural Network based Precursor microRNA Prediction

Seunghyun Park, Seonwoo Min|arXiv (Cornell University)|Apr 29, 2016

Cancer-related molecular mechanisms research参考文献 14被引用数 46

ひとこと要約

deepMiRGene は、特徴工学を手動で行わず、長短期記憶（LSTM）ネットワークを用いて配列および構造的特徴を自動で学習する深層学習的手法を提案する。パaledromic 二次構造を前向きおよび後向きのシーケンスストリームで処理することで、感度、特異度、および多物种への一般化性能において最先端の性能を達成する。

ABSTRACT

Since microRNAs (miRNAs) play a crucial role in post-transcriptional gene regulation, miRNA identification is one of the most essential problems in computational biology. miRNAs are usually short in length ranging between 20 and 23 base pairs. It is thus often difficult to distinguish miRNA-encoding sequences from other non-coding RNAs and pseudo miRNAs that have a similar length, and most previous studies have recommended using precursor miRNAs instead of mature miRNAs for robust detection. A great number of conventional machine-learning-based classification methods have been proposed, but they often have the serious disadvantage of requiring manual feature engineering, and their performance is limited as well. In this paper, we propose a novel miRNA precursor prediction algorithm, deepMiRGene, based on recurrent neural networks, specifically long short-term memory networks. deepMiRGene automatically learns suitable features from the data themselves without manual feature engineering and constructs a model that can successfully reflect structural characteristics of precursor miRNAs. For the performance evaluation of our approach, we have employed several widely used evaluation metrics on three recent benchmark datasets and verified that deepMiRGene delivered comparable performance among the current state-of-the-art tools.

研究の動機と目的

従来の機械学習手法が、手作業による特徴工学に大きく依存している点を是正するため。
内在的な配列および構造的パターンを自動で捉えるエンドツーエンドの深層学習モデルを開発するため。
標準的な RNN が時間的順方向の矛盾を抱えるため、miRNA のパレンドローム的二次構造をモデル化する課題を克服するため。
多様な種において、一般化性の高い強固なデータ駆動型特徴を学習することで、検出性能を向上させるため。
LSTM のセル状態および活性化を可視化することで解釈可能性を向上させ、学習された生物学的パターンの洞察を提供するため。

提案手法

前向きおよび後向きの両方向にシーケンスをモデル化するため、双方向 LSTM アーキテクチャを採用する。
二次構造を二つの独立したシーケンスストリーム（前向きおよび後向き）に分割する、新しいデータ表現戦略を導入する。
RNAfold からの点線表記を用いて二次構造情報をエンコードし、ネットワークに構造的文脈を保持させる。
手作業による特徴設計を排除するため、エンドツーエンドの学習により、生の配列および構造データから階層的表現を直接学習する。
訓練中に交差エントロピー損失と Adam 最適化を適用し、過学習を防ぐために早期停止を実装する。
LSTM の隠れ状態およびセル活性化を可視化し、学習された特徴の解釈と生物学的妥当性の検証を実施する。

実験結果

リサーチクエスチョン

RQ1LSTM を用いた深層学習モデルは、明示的な構造的特徴工学を伴わず、前駆体 miRNA のパレンドローム的二次構造を効果的に学習できるか？
RQ2手作業による特徴設計に依存する従来の機械学習ツールと比較して、エンドツーエンドの深層学習アプローチは前駆体 miRNA 予測において優れた性能を示すか？
RQ3構造的および配列的特徴が顕著に異なる種において、モデルの性能はいかがなっているか？
RQ4LSTM モデルの内部表現が、茎長やループ構成といった既知の生物学的特徴を再発見できるか？
RQ5画像ベースの二次構造表現（例：RNAfold からのもの）を用いることで、モデルの性能および学習効率にどのような影響があるか？

主な発見

deepMiRGene は、3つのベンチマークデータセットで最先端の性能を達成し、感度および特異度の両面で既存のツールを上回っている。
モデルは優れた多種間一般化性能を示し、異なる生物由来のデータに対してテストしても高い正確性を維持している。
前向きおよび後向きの二重ストリーム LSTM 処理により、前駆体 miRNA 構造のパレンドローム的対称性を効果的に捉えている。
LSTM セル状態の可視化により、茎長やループ構成といった既知の構造的特徴に対応する意味のあるパターンが明らかになった。
RNA 二次構造の画像を用いた畳み込みニューラルネットワーク（CNN）の初期実験では、性能が低下し、学習時間も延びたため、画像ベースの入力には即時の利点が限られると判明した。
1回の実行で約14時間（500エポック、5分割交差検証）の学習時間を要するが、推論時間は他のツールと同等であり、繰り返し使用に実用的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。