Skip to main content
QUICK REVIEW

[论文解读] Protein Secondary Structure Prediction with Long Short Term Memory Networks

Søren Kaae Sønderby, Ole Winther|arXiv (Cornell University)|Dec 25, 2014
Machine Learning in Bioinformatics参考文献 18被引用 102
一句话总结

本文提出了一种双向长短期记忆(LSTM)循环神经网络,其在LSTM层之间及前向与后向状态输出拼接处集成了前馈网络,用于蛋白质二级结构预测。该模型在CB513基准测试中实现了0.674的SOTA Q8准确率,优于先前的GSN和CNF模型等方法。

ABSTRACT

Prediction of protein secondary structure from the amino acid sequence is a classical bioinformatics problem. Common methods use feed forward neural networks or SVMs combined with a sliding window, as these models does not naturally handle sequential data. Recurrent neural networks are an generalization of the feed forward neural network that naturally handle sequential data. We use a bidirectional recurrent neural network with long short term memory cells for prediction of secondary structure and evaluate using the CB513 dataset. On the secondary structure 8-class problem we report better performance (0.674) than state of the art (0.664). Our model includes feed forward networks between the long short term memory cells, a path that can be further explored.

研究动机与目标

  • 通过在序列氨基酸数据上应用深度学习,提升蛋白质二级结构预测的准确率。
  • 解决传统前馈网络和SVM无法建模蛋白质序列中长程依赖关系的局限性。
  • 利用LSTM的序列建模能力,特别是双向LSTM,以捕捉蛋白质序列中双向的上下文信息。
  • 通过在循环架构内部及输出层集成前馈网络,实现更优的特征融合,从而提升性能。
  • 在CB513数据集上,为8类蛋白质二级结构预测任务建立新的SOTA结果。

提出的方法

  • 采用双向LSTM架构,其中前向和后向RNN分别处理氨基酸序列的两个方向。
  • 在LSTM隐藏状态之间引入前馈神经网络以优化表示,并采用类似残差网络的跳跃连接。
  • 在前向与后向LSTM网络输出拼接后,应用另一个前馈网络进行拼接与归一化处理,再进行最终分类。
  • 使用42维输入编码,结合了一位编码的氨基酸表示与来自PSI-BLAST的序列特征。
  • 使用AdaDelta优化方法进行训练,当L2范数超过0.5时应用梯度裁剪,并在拼接网络上应用50%的dropout进行正则化。
  • 采用3层LSTM,每层包含300或500个单元,并使用ReLU激活函数的全连接前馈层进行特征融合与预测。

实验结果

研究问题

  • RQ1具有内部前馈网络的双向LSTM是否能在蛋白质二级结构预测中超越现有SOTA模型?
  • RQ2在LSTM层之间集成前馈网络是否能提升表征学习能力与预测准确率?
  • RQ3LSTM是否能有效建模蛋白质序列中的长程依赖关系,突破标准RNN的限制?
  • RQ4所提出的架构与生成式随机网络(GSN)及条件神经场(CNF)在CB513基准上的表现相比如何?
  • RQ5使用双向上下文信息与残差式连接是否能带来Q8准确率的可测量提升?

主要发现

  • 所提出的LSTM模型在CB513测试集上实现了0.674的Q8准确率,创下新的SOTA性能记录。
  • 该模型优于先前的SOTA方法——生成式随机网络(GSN),其准确率为0.664。
  • 该模型显著超越了SSpro8中报告的双向RNN(BRNN)基线模型,后者准确率为0.511。
  • 条件神经场(CNF)集成方法的准确率为0.649,表明所提模型实现了显著改进。
  • 在LSTM层之间及输出拼接阶段集成前馈网络,有助于提升性能,优于标准的双向LSTM设置。
  • 该模型在所有二级结构类别上表现稳健,其中频率最高的类别(H和E)表现出优异的预测准确率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。