[论文解读] Protein Secondary Structure Prediction Using Deep Multi-scale Convolutional Neural Networks and Next-Step Conditioning
该论文提出了一种带有残差连接和下一步条件预测的深度多尺度卷积神经网络,用于蛋白质二级结构预测,在CB513数据集上使用单一模型实现了70.0%的Q8准确率,通过与条件模型集成后达到70.6%。该方法通过利用现代深度学习技术及一种新颖的集成策略,有效缓解了条件预测中的过拟合问题,从而在性能上超越了先前的最先进方法。
Recently developed deep learning techniques have significantly improved the accuracy of various speech and image recognition systems. In this paper we adapt some of these techniques for protein secondary structure prediction. We first train a series of deep neural networks to predict eight-class secondary structure labels given a protein's amino acid sequence information and find that using recent methods for regularization, such as dropout and weight-norm constraining, leads to measurable gains in accuracy. We then adapt recent convolutional neural network architectures--Inception, ReSNet, and DenseNet with Batch Normalization--to the problem of protein structure prediction. These convolutional architectures make heavy use of multi-scale filter layers that simultaneously compute features on several scales, and use residual connections to prevent underfitting. Using a carefully modified version of these architectures, we achieve state-of-the-art performance of 70.0% per amino acid accuracy on the public CB513 benchmark dataset. Finally, we explore additions from sequence-to-sequence learning, altering the model to make its predictions conditioned on both the protein's amino acid sequence and its past secondary structure labels. We introduce a new method of ensembling such a conditional model with our convolutional model, an approach which reaches 70.6% Q8 accuracy on CB513. We argue that these results can be further refined for larger boosts in prediction accuracy through more sophisticated attempts to control overfitting of conditional models. We aim to release the code for these experiments as part of the TensorFlow repository.
研究动机与目标
- 通过从图像识别中借鉴的现代深度学习架构改进蛋白质二级结构预测的准确性。
- 研究多尺度卷积层和残差连接对二级结构预测的影响。
- 探索基于过去二级结构标签的序列到序列条件预测对提升预测准确率的作用。
- 通过一种新颖的集成策略,结合无条件卷积模型,缓解条件模型中的过拟合问题。
- 在CB513基准数据集上,使用单一模型和集成方法建立新的最先进性能记录。
提出的方法
- 将深度卷积神经网络架构——Inception、ResNet和DenseNet——结合批量归一化和多尺度滤波器,应用于蛋白质序列数据。
- 应用正则化技术(如dropout和权重归一化约束)以提升泛化能力并减少过拟合。
- 引入残差连接以保留局部序列上下文信息,防止深层网络中的信息丢失。
- 设计了一种条件模型,其预测结果同时依赖于氨基酸序列和先前预测的标签,灵感来源于序列到序列学习。
- 采用加权束搜索集成方法,结合无条件CNN和条件模型的预测结果,以减少误差传播。
- 使用42维输入表示,结合一位热编码的氨基酸表示和来自PSI-BLAST的归一化PSSM特征。
实验结果
研究问题
- RQ1来自图像识别的现代深度卷积架构能否有效适配于蛋白质二级结构预测?
- RQ2多尺度卷积层和残差连接在八类二级结构问题上如何提升性能?
- RQ3将未来预测条件化于过去二级结构标签是否能带来可测量的准确率提升?
- RQ4条件模型中的过拟合在多大程度上限制了性能表现?是否可通过集成学习加以缓解?
- RQ5单一模型是否能在无需集成或多任务学习的情况下实现最先进性能?
主要发现
- 所提出的多尺度残差卷积网络在CB513基准上实现了70.0%的Q8准确率,比之前最先进方法高出0.3%。
- 引入残差连接带来的准确率提升大于单纯增加卷积块,表明信息保留能力得到显著改善。
- 条件模型在验证集上使用真实上下文时达到81.7%的下一步准确率,但在测试集上使用束搜索时下降至67.1%,表明存在强烈过拟合。
- 将条件模型与无条件CNN集成后,测试准确率提升至70.6%,相比之前最佳结果相对提升0.9%。
- 该集成方法优于简单集成两个无条件模型(70.4% vs. 70.6%),表明尽管存在过拟合,条件化仍能带来可测量的性能增益。
- 结果表明,条件模型中的过拟合主要源于倾向于复制先前标签,而通过策略性地设计集成权重可有效缓解该问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。