QUICK REVIEW

[论文解读] deepTarget: End-to-end Learning Framework for microRNA Target Prediction using Deep Recurrent Neural Networks

Byunghan Lee, Junghwan Baek|arXiv (Cornell University)|Mar 30, 2016

MicroRNA in disease regulation参考文献 42被引用 25

一句话总结

deepTarget 提出了一种端到端的深度学习框架，用于使用双向长短期记忆（LSTM）网络进行微小RNA靶标预测，以自动学习序列表征和相互作用，无需人工特征工程。与现有工具相比，其F值提升了25%以上，显著减少了假阳性，同时保持了高敏感性。

ABSTRACT

MicroRNAs (miRNAs) are short sequences of ribonucleic acids that control the expression of target messenger RNAs (mRNAs) by binding them. Robust prediction of miRNA-mRNA pairs is of utmost importance in deciphering gene regulations but has been challenging because of high false positive rates, despite a deluge of computational tools that normally require laborious manual feature extraction. This paper presents an end-to-end machine learning framework for miRNA target prediction. Leveraged by deep recurrent neural networks-based auto-encoding and sequence-sequence interaction learning, our approach not only delivers an unprecedented level of accuracy but also eliminates the need for manual feature extraction. The performance gap between the proposed method and existing alternatives is substantial (over 25% increase in F-measure), and deepTarget delivers a quantum leap in the long-standing challenge of robust miRNA target prediction.

研究动机与目标

解决现有微小RNA靶标预测工具因依赖手工设计特征而导致的高假阳性率问题。
克服基于比对的方法对参数设置敏感且无法捕捉真实生物学相互作用的局限性。
开发一种端到端的学习框架，从原始RNA序列中自动发现相关的序列表征和相互作用模式。
在负样本远多于真实正样本的不平衡数据集上，提升预测的准确性和鲁棒性。
通过可视化RNN层激活情况，实现对学习表征的可解释性，以揭示具有生物学意义的模式。

提出的方法

使用双向LSTM自编码器，以无监督方式学习miRNA和mRNA序列的深层、分层表征。
将两个自编码器学习到的序列嵌入表示进行拼接，形成miRNA-mRNA对的联合表征。
使用堆叠的、单向的两层RNN来建模序列到序列的相互作用，并预测靶标结合的可能性。
在标记的正样本（真实靶标对）和负样本（非靶标对）上，通过监督学习端到端训练整个框架。
通过在训练过程中优先减少假阳性，优化在不平衡数据集上的高敏感性和阳性预测值（PPV）。
可视化中间RNN层的激活情况，以解释学习到的模式，并可能发现新的生物学特征。

实验结果

研究问题

RQ1端到端的深度学习框架是否能超越依赖手工特征的传统微小RNA靶标预测工具？
RQ2循环神经网络在无需序列比对或特征工程的情况下，能在多大程度上自动学习有意义的序列表征和相互作用模式？
RQ3在不平衡数据集上，deepTarget在F值、敏感性和PPV方面的表现与现有工具相比如何？
RQ4内部RNN激活的可视化是否能揭示与已知微小RNA-mRNA结合位点相对应的生物学相关模式？
RQ5架构选择（如使用自编码器和堆叠RNN）对模型检测细微调控相互作用能力有何影响？

主要发现

与现有最佳工具相比，deepTarget的F值提高了25%以上，显示出显著的性能差距。
该模型在不平衡数据集上显著提升了阳性预测值（PPV）和敏感性，表明其在真实场景中的鲁棒性。
RNN层激活的可视化在对应于已知微小RNA-mRNA结合位点的核苷酸位置上，揭示了清晰且具有生物学合理性的模式。
该框架消除了对手动特征提取的需求，避免了以往方法中常见的人工繁琐且易出错的过程。
即使未使用文献中已知的151个特征，性能仍得到提升，证明了端到端表征学习的有效性。
模型架构，特别是自编码器和堆叠RNN的使用，使模型能够有效检测到传统工具所遗漏的细微序列相互作用。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。