[论文解读] DNA-Level Splice Junction Prediction using Deep Recurrent Neural Networks
本文提出一种基于深度循环神经网络(RNN)的方法,用于DNA水平的剪接接合位点预测,采用学习得到的密集核苷酸嵌入以及LSTM、GRU和iRNN等架构来建模DNA序列模式。该方法在剪接接合位点分类任务中取得了94.3%的F1分数,显著优于SVM和深度置信网络基线模型,展现出在检测经典及非经典剪接位点方面的更高准确性。
A eukaryotic gene consists of multiple exons (protein coding regions) and introns (non-coding regions), and a splice junction refers to the boundary between a pair of exon and intron. Precise identification of spice junctions on a gene is important for deciphering its primary structure, function, and interaction. Experimental techniques for determining exon/intron boundaries include RNA-seq, which is often accompanied by computational approaches. Canonical splicing signals are known, but computational junction prediction still remains challenging because of a large number of false positives and other complications. In this paper, we exploit deep recurrent neural networks (RNNs) to model DNA sequences and to detect splice junctions thereon. We test various RNN units and architectures including long short-term memory units, gated recurrent units, and recently proposed iRNN for in-depth design space exploration. According to our experimental results, the proposed approach significantly outperforms not only conventional machine learning-based methods but also a recent state-of-the-art deep belief network-based technique in terms of prediction accuracy.
研究动机与目标
- 为了提高真核生物基因中计算剪接接合位点预测的准确性,特别是针对传统方法常遗漏的非经典剪接信号。
- 探究深度循环神经网络(RNNs)在建模剪接位点周围序列DNA模式方面的有效性。
- 通过在训练过程中学习密集的分布式核苷酸嵌入,克服传统one-hot编码和稀疏向量表示的局限性。
- 评估并比较不同RNN单元(LSTM、GRU和iRNN)在剪接接合位点检测任务中的表现。
- 建立一个深度学习框架,通过识别细微的非经典剪接信号,以补充基于比对的RNA-seq方法。
提出的方法
- 使用每个核苷酸的4维学习型密集向量代替one-hot编码对DNA序列进行编码,以提升表征学习能力和泛化性能。
- 模型采用堆叠的RNN层,使用LSTM、GRU或iRNN单元,以捕捉剪接接合位点周围DNA序列中的长程依赖关系。
- 最终的RNN层通过带有Sigmoid激活函数的全连接层输出三分类预测结果(供体、受体、非位点)。
- 网络使用Adam优化器,在多分类对数损失函数上进行训练,并采用Dropout进行正则化。
- 输入序列长度固定为60个核苷酸,以外显子边界为中心,生成供体、受体和非位点类别的训练样本。
- 模型在包含经典和非经典剪接位点的UCSC-hg38和UCSC-hg19数据集上进行评估。
实验结果
研究问题
- RQ1深度循环神经网络能否有效学习并检测DNA序列中的经典及非经典剪接接合位点信号?
- RQ2在剪接接合位点预测任务中,LSTM、GRU和iRNN等不同RNN单元的性能表现如何比较?
- RQ3在此背景下,学习密集核苷酸嵌入是否能提升预测准确性,相比one-hot编码?
- RQ4RNN-based模型能否在剪接接合位点检测中超越传统机器学习方法(如SVM和深度置信网络)?
- RQ5网络架构的深度(如堆叠层数)在多大程度上提升性能?是否存在性能增益递减现象?
主要发现
- 所提出的基于RNN的方法在使用LSTM单元时,测试F1分数达到94.3%,显著优于表现第二好的基线方法——深度置信网络(DBN),其F1分数为88.8%。
- LSTM架构表现最佳,其次为GRU(92.63%)和iRNN(92.10%),在测试深度范围内,更深的网络未带来显著性能提升。
- iRNN模型在训练初期收敛迅速,但在后期训练阶段出现不稳定现象并导致性能下降。
- 使用学习到的密集嵌入提升了泛化能力,而one-hot编码被发现会产生稀疏且效果较差的表征。
- 该方法在UCSC-hg38和UCSC-hg19数据集上均表现出稳健性能,包括对非经典剪接信号序列的识别。
- 与最先进的基于DBN的方法相比,该方法在准确率上提升了6.19个百分点,凸显其在剪接接合位点检测中的优越性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。