[论文解读] End-to-End Learning on 3D Protein Structure for Interface Prediction
本文提出 DIPS,一 个大规模蛋白-蛋白界面数据集,以及 SASNet,首个端到端 3D CNN 模型,仅使用原子坐标来预测配对蛋白界面,在结合结构训练的情况下在 DB5-test 上实现了最先进的结果。
Despite an explosion in the number of experimentally determined, atomically detailed structures of biomolecules, many critical tasks in structural biology remain data-limited. Whether performance in such tasks can be improved by using large repositories of tangentially related structural data remains an open question. To address this question, we focused on a central problem in biology: predicting how proteins interact with one another---that is, which surfaces of one protein bind to those of another protein. We built a training dataset, the Database of Interacting Protein Structures (DIPS), that contains biases but is two orders of magnitude larger than those used previously. We found that these biases significantly degrade the performance of existing methods on gold-standard data. Hypothesizing that assumptions baked into the hand-crafted features on which these methods depend were the source of the problem, we developed the first end-to-end learning model for protein interface prediction, the Siamese Atomic Surfacelet Network (SASNet). Using only spatial coordinates and identities of atoms, SASNet outperforms state-of-the-art methods trained on gold-standard structural data, even when trained on only 3% of our new dataset. Code and data available at https://github.com/drorlab/DIPS.
研究动机与目标
- 激发:大规模且略相关的结构数据是否可以提升数据受限的界面预测任务。
- 创建一个更大规模的训练数据集 DIPS,以研究界面预测器的偏差与鲁棒性。
- 开发一个端到端模型,直接从原子坐标学习,而无需手工设计的特征。
- 展示 SASNet 相对于在金标准数据上训练的最先进方法的性能。
- 探索端到端学习对数据集偏差的鲁棒性以及潜在的可扩展性优势。
提出的方法
- 通过挖掘 PDB 构建 DIPS 数据集,包含 42,826 个二元蛋白相互作用,超过五百万个正界面氨基酸对。
- 将每个界面对表示为称为 surfacelet 的局部原子环境,并将其体素化为具有原子类型通道的固定大小的 4D 网格。
- 使用带绑定权重的类孪生结构的 3D CNN 来处理两个 surfacelet,并连接它们的潜在表示进行二分类。
- 用二元交叉熵损失进行训练,并通过随机旋转的数据增强实现旋转不变性。
- 在 DB5-test 上使用每个复合体中位数 AUROC (CAUROC) 进行评估,并报告最佳验证重复的 CAUROC。
- 证明在 DIPS 上训练的 SASNet 即使只在 DIPS 的很小一部分上训练,也能优于手工特征方法。
实验结果
研究问题
- RQ1端到端的 3D CNN 能否在成对蛋白界面预测中超越手工特征方法?
- RQ2在一个大规模、易偏差的数据集(DIPS)上训练是否会提高在金标准测试数据(DB5-test)上的界面预测性能?
- RQ3在仅使用 DIPS 的一小部分培训时,SASNet 的表现相对于传统的在 DB5 上训练的模型如何?
- RQ4诸如网格大小和数据集规模等超参数对 SASNet 性能有何影响?
主要发现
| 方法 | CAUROC (DB5-test) | 种子变异性(Std) |
|---|---|---|
| NGF | 0.843 (0.851 +/- 0.010) | 0.010 |
| DTNN | 0.861 (0.861 +/- 0.004) | 0.004 |
| Node+Edge Average | 0.844 (0.850 +/- 0.004) | 0.004 |
| Order Dependent | 0.857 (0.864 +/- 0.006) | 0.006 |
| Node Average | 0.876 (0.877 +/- 0.005) | 0.005 |
| BIPSPI | 0.878 (0.878 +/- 0.003) | 0.003 |
| SASNet | 0.892 (0.885 +/- 0.009) | 0.009 |
- SASNet 在 DB5-test 上达到 0.892 CAUROC,优于所有列出的基线。
- 在 DIPS 训练的比较方法在 DB5-test 上表现下降,而在 DIPS 上训练的 SASNet 则提升。
- SASNet 即使在仅使用 DIPS 3% 的情况下训练,仍然超越在 DB5 上训练的最先进方法。
- 增大网格尺寸在一定程度上带来性能提升,边长 41 Å、分辨率 1 Å 的结果尤为强劲。
- 更大的 DIPS 数据集持续提升 SASNet 的性能,表明其具备利用更多数据的能力。
- 仅在结合复合物上训练的 SASNet 仍然对未结合场景具有泛化能力,表明学习到的特征捕捉了蛋白质的柔性,而不仅仅是简单的形状互补性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。