[论文解读] Next-Step Conditioned Deep Convolutional Neural Networks Improve Protein Secondary Structure Prediction
本文提出了一种基于下一项条件的深度卷积神经网络,用于蛋白质二级结构预测,通过在训练中结合局部序列特征和先前预测的结构标签,利用调度采样(scheduled sampling)提升性能。该方法在CB513基准测试中通过模型集成实现了71.4%的Q8准确率,创下单模型与集成模型在八类二级结构预测中的新SOTA(state-of-the-art)记录。
Recently developed deep learning techniques have significantly improved the accuracy of various speech and image recognition systems. In this paper we show how to adapt some of these techniques to create a novel chained convolutional architecture with next-step conditioning for improving performance on protein sequence prediction problems. We explore its value by demonstrating its ability to improve performance on eight-class secondary structure prediction. We first establish a state-of-the-art baseline by adapting recent advances in convolutional neural networks which were developed for vision tasks. This model achieves 70.0% per amino acid accuracy on the CB513 benchmark dataset without use of standard performance-boosting techniques such as ensembling or multitask learning. We then improve upon this state-of-the-art result using a novel chained prediction approach which frames the secondary structure prediction as a next-step prediction problem. This sequential model achieves 70.3% Q8 accuracy on CB513 with a single model; an ensemble of these models produces 71.4% Q8 accuracy on the same test set, improving upon the previous overall state of the art for the eight-class secondary structure problem. Our models are implemented using TensorFlow, an open-source machine learning software library available at TensorFlow.org; we aim to release the code for these experiments as part of the TensorFlow repository.
研究动机与目标
- 通过借鉴计算机视觉领域的深度学习技术,提升蛋白质二级结构预测的准确性。
- 解决标准卷积网络在捕捉蛋白质结构序列依赖关系方面的局限性。
- 探索下一项条件机制——即预测结果依赖于先前预测的标签——以增强二级结构预测中的序列建模能力。
- 通过训练过程中引入调度采样,缓解下一项条件模型的过拟合问题。
- 通过单模型与集成模型方法,建立八类二级结构预测的新SOTA标准。
提出的方法
- 设计了一种多尺度、残差连接的卷积神经网络,采用批量归一化、Dropout和权重归一化等技术,以提升从氨基酸序列中学习特征的能力。
- 使用1D卷积与3核滤波器从序列嵌入中提取局部模式,嵌入类型包括独热编码和PSSM编码的残基。
- 通过将先前预测的二级结构标签作为输入馈送到后续预测中,引入下一项条件机制,实现自回归建模。
- 在训练过程中应用调度采样,通过随机用模型预测标签替换真实标签,以减少过拟合。
- 采用交叉熵损失函数结合标签平滑与早停策略,对网络进行端到端训练,以防止过拟合。
- 通过训练多个下一项条件网络实例并平均预测结果,构建集成模型,以提升鲁棒性与准确性。
实验结果
研究问题
- RQ1下一项条件机制是否能够使蛋白质二级结构预测性能超越标准卷积网络?
- RQ2调度采样在二级结构预测中对下一项条件模型泛化能力的影响如何?
- RQ3与使用真实标签相比,基于预测标签的条件机制在多大程度上可减少过拟合?
- RQ4仅使用残差连接与多尺度滤波器的单一深度卷积模型,是否能在不依赖集成的情况下超越以往SOTA模型?
- RQ5将语言建模技术整合到蛋白质序列建模中,是否能带来可测量的二级结构预测准确率提升?
主要发现
- 基础模型在不使用集成或多任务学习的情况下,仅通过先进卷积技术即在CB513上达到70.0%的Q8准确率,创下单模型新SOTA记录。
- 下一项条件模型在单模型设置下于CB513上达到70.3%的Q8准确率,较基线模型提升0.3%。
- 下一项条件模型的集成版本在CB513上达到71.4%的Q8准确率,相较此前整体SOTA提升1.7%。
- 若不使用调度采样,下一项条件模型出现严重过拟合,验证集准确率从82%骤降至测试集推理时的67.1%,凸显调度采样在训练中的必要性。
- 模型对稀有或短序列的二级结构类别存在轻微召回不足,表明仍存在对标签重复的过拟合问题。
- 所提出的架构具备良好的泛化能力,可推广至其他蛋白质序列预测任务,如溶剂可及性或主链二面角预测。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。