Skip to main content
QUICK REVIEW

[论文解读] Comparing two deep learning sequence-based models for protein-protein interaction prediction

Florian Richoux, Charlène Servantie|arXiv (Cornell University)|Jan 15, 2019
Bioinformatics and Genomic Networks参考文献 21被引用 25
一句话总结

该论文比较了两种深度学习模型——全连接网络与循环神经网络——在蛋白质序列上的训练表现,以高精度预测人类蛋白质-蛋白质相互作用(PPI),同时严格避免过拟合与信息泄露。最佳模型在严格隔离的测试集上达到78.33%的准确率,其中无任何蛋白质出现在训练集或验证集中,表明其具备强大的泛化能力与可扩展潜力。

ABSTRACT

Biological data are extremely diverse, complex but also quite sparse. The recent developments in deep learning methods are offering new possibilities for the analysis of complex data. However, it is easy to be get a deep learning model that seems to have good results but is in fact either overfitting the training data or the validation data. In particular, the fact to overfit the validation data, called "information leak", is almost never treated in papers proposing deep learning models to predict protein-protein interactions (PPI). In this work, we compare two carefully designed deep learning models and show pitfalls to avoid while predicting PPIs through machine learning methods. Our best model predicts accurately more than 78% of human PPI, in very strict conditions both for training and testing. The methodology we propose here allow us to have strong confidences about the ability of a model to scale up on larger datasets. This would allow sharper models when larger datasets would be available, rather than current models prone to information leaks. Our solid methodological foundations shall be applicable to more organisms and whole proteome networks predictions.

研究动机与目标

  • 开发并比较两种基于序列的蛋白质-蛋白质相互作用(PPI)预测深度学习模型,确保具有强泛化保证。
  • 通过严格分离的训练集、验证集与测试集(蛋白质不跨集合重复出现)来防止过拟合与信息泄露。
  • 建立一种稳健、可复现的PPI预测方法论,具备向更大数据集及其他生物体扩展的潜力。
  • 在严格条件下评估模型性能,确保结果不受数据泄露或不良数据集划分的影响。
  • 为未来在界面层面进行PPI预测及全蛋白质组网络建模研究提供基础。

提出的方法

  • 数据集基于UniProt中的人类PPI注释构建,正负样本对保持平衡,并筛选仅包含长度≤1166个氨基酸的蛋白质。
  • 采用标准划分方式创建常规的训练集、验证集与测试集,每类均含50%正样本与50%负样本。
  • 通过隔离至少一个蛋白质在整个数据集中出现次数不超过两次的蛋白质对,创建更严格的划分,确保各集合间无蛋白质重叠。
  • 训练两种深度学习模型:全连接网络与基于LSTM的循环神经网络,均以原始氨基酸序列为输入。
  • 超参数调优仅在隔离验证集上进行,最终评估在严格隔离的测试集上完成,以防止信息泄露。
  • 模型在序列嵌入上端到端训练,无需手工设计特征,充分发挥深度学习自动提取复杂模式的能力。

实验结果

研究问题

  • RQ1深度学习模型是否能在严格评估协议下实现高精度的PPI预测,同时避免过拟合与信息泄露?
  • RQ2在基于序列的PPI预测任务中,全连接网络与循环神经网络架构在性能与鲁棒性方面如何比较?
  • RQ3训练集、验证集与测试集之间完全无蛋白质重叠,在多大程度上提升了模型的泛化能力与可靠性?
  • RQ4能否将一种防止数据泄露的方法论应用于更大规模、未来可能的数据集,实现可扩展的PPI预测?
  • RQ5采用无蛋白质重复使用的隔离测试集对模型评估的准确率与置信度有何影响?

主要发现

  • 循环神经网络模型在严格隔离的测试集上达到78.33%的准确率,且无任何蛋白质出现在训练或验证集中,表明其具备强大的泛化能力。
  • 全连接网络模型在同一严格测试集上达到76.25%的准确率,表明其在不同架构下均表现出稳定性能。
  • 严格的评估协议成功防止了信息泄露,表现为对从未在训练或验证中出现过的蛋白质对仍保持高性能。
  • 本研究指出,许多现有PPI预测方法存在数据泄露与不良验证实践问题,严重损害了模型的可靠性。
  • 该方法论确保模型不受亚细胞定位或蛋白质重复暴露的影响,提升了生物学可解释性。
  • 作者提供了完整的代码、数据与实验设置,以支持可复现性,并为未来在其他生物体上的基准测试与扩展研究奠定基础。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。