QUICK REVIEW

[论文解读] OpenProteinSet: Training data for structural biology at scale

Gustaf Ahdritz, Nazim Bouatta|arXiv (Cornell University)|Aug 10, 2023

Machine Learning in Bioinformatics被引用 15

一句话总结

OpenProteinSet 是一个包含超过 16 million 的 MSA、结构同源物和 AlphaFold2 预测的大型开源语料库，旨在用于训练达到 AlphaFold2 规模及以上的蛋白质 ML 模型；它包括一个过滤后的多样子集，包含 270,000 条 MSA 及相应的结构预测。

ABSTRACT

Multiple sequence alignments (MSAs) of proteins encode rich biological information and have been workhorses in bioinformatic methods for tasks like protein design and protein structure prediction for decades. Recent breakthroughs like AlphaFold2 that use transformers to attend directly over large quantities of raw MSAs have reaffirmed their importance. Generation of MSAs is highly computationally intensive, however, and no datasets comparable to those used to train AlphaFold2 have been made available to the research community, hindering progress in machine learning for proteins. To remedy this problem, we introduce OpenProteinSet, an open-source corpus of more than 16 million MSAs, associated structural homologs from the Protein Data Bank, and AlphaFold2 protein structure predictions. We have previously demonstrated the utility of OpenProteinSet by successfully retraining AlphaFold2 on it. We expect OpenProteinSet to be broadly useful as training and validation data for 1) diverse tasks focused on protein structure, function, and design and 2) large-scale multimodal machine learning research.

研究动机与目标

推动对大规模 MSA 数据的开放获取，以促进蛋白质结构预测及相关任务。
提供与 AlphaFold2 训练数据规模相当的多样、深度且可重复使用的 MSA 语料库。
提供相关的结构模板和 AlphaFold2 预测的结构，以高质量的 MSA 进行训练。
为使用 OpenFold 等模型的开源蛋白质建模提供评估和验证框架。

提出的方法

为所有唯一 PDB 链（140k）以及 Uniclust30 聚类（16M MSAs）组装 MSAs。
计算每条链三个 MSA，使用不同工具和数据库（JackHMMer 与 MGnify 和 UniRef90；HHblits 与 BFD 和 Uniclust30）。
通过去冗、应用长度截断（200–1024 残基），生成一个过滤后的多样且深度的子集，共 270,262 条 MSA。
通过 HHSearch 对 PDB70 进行模板命中识别，并为代表性链生成基于 OpenFold 的结构预测。
以 HHSearch 格式提供相关模板，以 PDB 格式提供结构；所有数据依据 CC BY 4.0 发布。
通过重新训练 OpenFold（AlphaFold2 开放复制版）并将性能与原始 AlphaFold2 进行比较，来演示实用性。

实验结果

研究问题

RQ1如何构建与 AlphaFold2 等专有训练集规模相当的大规模开放 MSA 数据集。
RQ2哪些 MSA 子集在深度与多样性之间取得平衡，以实现有效的 AlphaFold2 风格训练。
RQ3来自 OpenProteinSet 的高质量 MSA 派生模板和结构预测如何影响蛋白结构预测模型的训练结果。

主要发现

蛋白来源	数量（近似）	MSA	模板命中	结构
PDB（所有唯一链）	140k	✓	✓	实验确定的
Uniclust30（筛选后）	270,000	✓	✓	由 AlphaFold2 预测
Uniclust30（未筛选）	16 million	✓	×	×

OpenProteinSet 包含超过 16M 的 Uniclust30 MSA，以及 PDB-链 MSAs 和类似 AlphaFold2 的结构预测。
从 Uniclust30 中选出多样、深度的 270,262 条 MSA，附带模板命中和结构预测。
OpenFold 在 OpenProteinSet 上训练后，在 CASP15 域上接近 AlphaFold2 的水平（平均 GDT-TS: 73.8 对 74.6；OpenFold 至少在 50% 的目标上与之同等）。
在 180 蛋白质的验证集（CAMEO）上，最终 OpenFold 模型的 lDDT-Cα 约为 0.907，跨种子变异性较低。
OpenProteinSet 的 MSA 代表了数百万小时的计算，并展示了在开放框架中有效复制 AlphaFold2 规模训练的能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。