[论文解读] Protein Secondary Structure Prediction with Long Short Term Memory Networks
本文提出了一种双向长短期记忆(LSTM)循环神经网络,其在LSTM层之间及前向与后向状态输出拼接处集成了前馈网络,用于蛋白质二级结构预测。该模型在CB513基准测试中实现了0.674的SOTA Q8准确率,优于先前的GSN和CNF模型等方法。
Prediction of protein secondary structure from the amino acid sequence is a classical bioinformatics problem. Common methods use feed forward neural networks or SVMs combined with a sliding window, as these models does not naturally handle sequential data. Recurrent neural networks are an generalization of the feed forward neural network that naturally handle sequential data. We use a bidirectional recurrent neural network with long short term memory cells for prediction of secondary structure and evaluate using the CB513 dataset. On the secondary structure 8-class problem we report better performance (0.674) than state of the art (0.664). Our model includes feed forward networks between the long short term memory cells, a path that can be further explored.
研究动机与目标
- 通过在序列氨基酸数据上应用深度学习,提升蛋白质二级结构预测的准确率。
- 解决传统前馈网络和SVM无法建模蛋白质序列中长程依赖关系的局限性。
- 利用LSTM的序列建模能力,特别是双向LSTM,以捕捉蛋白质序列中双向的上下文信息。
- 通过在循环架构内部及输出层集成前馈网络,实现更优的特征融合,从而提升性能。
- 在CB513数据集上,为8类蛋白质二级结构预测任务建立新的SOTA结果。
提出的方法
- 采用双向LSTM架构,其中前向和后向RNN分别处理氨基酸序列的两个方向。
- 在LSTM隐藏状态之间引入前馈神经网络以优化表示,并采用类似残差网络的跳跃连接。
- 在前向与后向LSTM网络输出拼接后,应用另一个前馈网络进行拼接与归一化处理,再进行最终分类。
- 使用42维输入编码,结合了一位编码的氨基酸表示与来自PSI-BLAST的序列特征。
- 使用AdaDelta优化方法进行训练,当L2范数超过0.5时应用梯度裁剪,并在拼接网络上应用50%的dropout进行正则化。
- 采用3层LSTM,每层包含300或500个单元,并使用ReLU激活函数的全连接前馈层进行特征融合与预测。
实验结果
研究问题
- RQ1具有内部前馈网络的双向LSTM是否能在蛋白质二级结构预测中超越现有SOTA模型?
- RQ2在LSTM层之间集成前馈网络是否能提升表征学习能力与预测准确率?
- RQ3LSTM是否能有效建模蛋白质序列中的长程依赖关系,突破标准RNN的限制?
- RQ4所提出的架构与生成式随机网络(GSN)及条件神经场(CNF)在CB513基准上的表现相比如何?
- RQ5使用双向上下文信息与残差式连接是否能带来Q8准确率的可测量提升?
主要发现
- 所提出的LSTM模型在CB513测试集上实现了0.674的Q8准确率,创下新的SOTA性能记录。
- 该模型优于先前的SOTA方法——生成式随机网络(GSN),其准确率为0.664。
- 该模型显著超越了SSpro8中报告的双向RNN(BRNN)基线模型,后者准确率为0.511。
- 条件神经场(CNF)集成方法的准确率为0.649,表明所提模型实现了显著改进。
- 在LSTM层之间及输出拼接阶段集成前馈网络,有助于提升性能,优于标准的双向LSTM设置。
- 该模型在所有二级结构类别上表现稳健,其中频率最高的类别(H和E)表现出优异的预测准确率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。