QUICK REVIEW

[논문 리뷰] OpenProteinSet: Training data for structural biology at scale

Gustaf Ahdritz, Nazim Bouatta|arXiv (Cornell University)|2023. 08. 10.

Machine Learning in Bioinformatics인용 수 15

한 줄 요약

OpenProteinSet은 AlphaFold2 규모 및 그 이상에서 단백질 ML 모델 학습을 위해 설계된 1,600만 개가 넘는 MSAs와 구조 동족 및 AlphaFold2 예측으로 구성된 대규모 오픈 소스 코퍼스입니다. 여기에 필터링된 다양성 하위 집합 270,000 MSAs와 해당 구조 예측이 포함되어 있습니다.

ABSTRACT

Multiple sequence alignments (MSAs) of proteins encode rich biological information and have been workhorses in bioinformatic methods for tasks like protein design and protein structure prediction for decades. Recent breakthroughs like AlphaFold2 that use transformers to attend directly over large quantities of raw MSAs have reaffirmed their importance. Generation of MSAs is highly computationally intensive, however, and no datasets comparable to those used to train AlphaFold2 have been made available to the research community, hindering progress in machine learning for proteins. To remedy this problem, we introduce OpenProteinSet, an open-source corpus of more than 16 million MSAs, associated structural homologs from the Protein Data Bank, and AlphaFold2 protein structure predictions. We have previously demonstrated the utility of OpenProteinSet by successfully retraining AlphaFold2 on it. We expect OpenProteinSet to be broadly useful as training and validation data for 1) diverse tasks focused on protein structure, function, and design and 2) large-scale multimodal machine learning research.

연구 동기 및 목표

단백질 구조 예측 및 관련 작업을 발전시키기 위해 대규모 MSA 데이터에 대한 오픈 액세스 동기를 부여합니다.
AlphaFold2 훈련 데이터 규모에 필적하는 다양하고 깊으며 재사용 가능한 MSA 코퍼스를 제공합니다.
고품질 MSA와 함께 훈련을 위한 관련 구조 템플릿과 AlphaFold2 예측 구조를 제공합니다.
OpenFold 및 유사 모델과 함께 오픈 소스 단백질 모델링의 평가 및 검증 프레임워크를 가능하게 합니다.

제안 방법

모든 고유 PDB 체인(140k) 및 Uniclust30 클러스터(16M MSA)에 대해 MSA를 구성했습니다.
다른 도구 및 데이터베이스를 사용하여 체인당 세 개의 MSA를 계산했습니다( MGnify 및 UniRef90를 사용한 JackHMMer; BFD 및 Uniclust30를 사용한 HHblits).
중복 제거 및 길이 컷오프(200–1024 잔여물) 적용으로 다양하고 깊은 270,262 MSA의 필터링된 하위 집합을 생성했습니다.
HHSearch를 통해 PDB70에 대한 템플릿 히트를 식별하고 대표 체인에 대한 OpenFold 기반 구조 예측을 생성했습니다.
HHSearch 형식의 관련 템플릿과 PDB 형식의 구조를 제공했습니다; 모든 데이터는 CC BY 4.0 하에 공개됩니다.
OpenFold(OpenFold 재현 가능성; AlphaFold2 오픈 재현)을 재학습하고 성능을 원래의 AlphaFold2와 비교하는 데 활용을 시연했습니다.

실험 결과

연구 질문

RQ1OpenProteinSet처럼 AlphaFold2와 같은 독점 학습 세트의 규모에 맞추어 대규모 공개 MSA 데이터 세트를 어떻게 구성할 수 있는가.
RQ2깊이와 다양성을 균형 짓는 MSA의 하위 집합은 AlphaFold2 스타일의 효과적인 학습에 어떤 영향을 미치는가.
RQ3OpenProteinSet에서 얻은 고품질 MSA 유도 템플릿과 구조 예측이 단백질 구조 예측 모델의 학습 결과에 얼마나 영향을 미치는가.

주요 결과

단백질 기원	수(대략)	MSA	템플릿 히트	구조
PDB (all unique chains)	140,000	✓	✓	Experimentally determined
Uniclust30 (filtered)	270,000	✓	✓	Predicted by AlphaFold2
Uniclust30 (unfiltered)	16 million	✓	×	×

OpenProteinSet은 16백만 개가 넘는 Uniclust30 MSAs와 PDB-체인 MSAs, 그리고 AlphaFold2 유사 구조 예측을 포함합니다.
Uniclust30에서 다양하고 깊은 270,262 MSAs가 템플릿 히트 및 구조 예측과 함께 선택되었습니다.
OpenFold가 OpenProteinSet에서 학습된 결과 CASP15 도메인에서 AlphaFold2와 거의 동등한 수준(GDT-TS 평균: 73.8 대 74.6; 대상의 최소 50%에서 OpenFold가 동등 이상)으로 달성했습니다.
180-단백질 검증 세트(CAMEO)에서 최종 OpenFold 모델은 lDDT-Cα 약 0.907로 실행 간 변동이 낮았습니다.
OpenProteinSet의 MSA는 수백만 시간의 컴퓨트 시간을 나타내며 오픈 프레임워크에서 AlphaFold2 규모의 학습을 효과적으로 재현합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.