QUICK REVIEW

[论文解读] Protein Secondary Structure Prediction with Long Short Term Memory Networks

Søren Kaae Sønderby, Ole Winther|arXiv (Cornell University)|Dec 25, 2014

Machine Learning in Bioinformatics参考文献 18被引用 102

一句话总结

本文提出了一种双向长短期记忆（LSTM）循环神经网络，其在LSTM层之间及前向与后向状态输出拼接处集成了前馈网络，用于蛋白质二级结构预测。该模型在CB513基准测试中实现了0.674的SOTA Q8准确率，优于先前的GSN和CNF模型等方法。

ABSTRACT

Prediction of protein secondary structure from the amino acid sequence is a classical bioinformatics problem. Common methods use feed forward neural networks or SVMs combined with a sliding window, as these models does not naturally handle sequential data. Recurrent neural networks are an generalization of the feed forward neural network that naturally handle sequential data. We use a bidirectional recurrent neural network with long short term memory cells for prediction of secondary structure and evaluate using the CB513 dataset. On the secondary structure 8-class problem we report better performance (0.674) than state of the art (0.664). Our model includes feed forward networks between the long short term memory cells, a path that can be further explored.

研究动机与目标

通过在序列氨基酸数据上应用深度学习，提升蛋白质二级结构预测的准确率。
解决传统前馈网络和SVM无法建模蛋白质序列中长程依赖关系的局限性。
利用LSTM的序列建模能力，特别是双向LSTM，以捕捉蛋白质序列中双向的上下文信息。
通过在循环架构内部及输出层集成前馈网络，实现更优的特征融合，从而提升性能。
在CB513数据集上，为8类蛋白质二级结构预测任务建立新的SOTA结果。

提出的方法

采用双向LSTM架构，其中前向和后向RNN分别处理氨基酸序列的两个方向。
在LSTM隐藏状态之间引入前馈神经网络以优化表示，并采用类似残差网络的跳跃连接。
在前向与后向LSTM网络输出拼接后，应用另一个前馈网络进行拼接与归一化处理，再进行最终分类。
使用42维输入编码，结合了一位编码的氨基酸表示与来自PSI-BLAST的序列特征。
使用AdaDelta优化方法进行训练，当L2范数超过0.5时应用梯度裁剪，并在拼接网络上应用50%的dropout进行正则化。
采用3层LSTM，每层包含300或500个单元，并使用ReLU激活函数的全连接前馈层进行特征融合与预测。

实验结果

研究问题

RQ1具有内部前馈网络的双向LSTM是否能在蛋白质二级结构预测中超越现有SOTA模型？
RQ2在LSTM层之间集成前馈网络是否能提升表征学习能力与预测准确率？
RQ3LSTM是否能有效建模蛋白质序列中的长程依赖关系，突破标准RNN的限制？
RQ4所提出的架构与生成式随机网络（GSN）及条件神经场（CNF）在CB513基准上的表现相比如何？
RQ5使用双向上下文信息与残差式连接是否能带来Q8准确率的可测量提升？

主要发现

所提出的LSTM模型在CB513测试集上实现了0.674的Q8准确率，创下新的SOTA性能记录。
该模型优于先前的SOTA方法——生成式随机网络（GSN），其准确率为0.664。
该模型显著超越了SSpro8中报告的双向RNN（BRNN）基线模型，后者准确率为0.511。
条件神经场（CNF）集成方法的准确率为0.649，表明所提模型实现了显著改进。
在LSTM层之间及输出拼接阶段集成前馈网络，有助于提升性能，优于标准的双向LSTM设置。
该模型在所有二级结构类别上表现稳健，其中频率最高的类别（H和E）表现出优异的预测准确率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。