QUICK REVIEW

[논문 리뷰] DMPfold: fast de novo protein model generation from covarying sequences using predicted distances and iterative model building

Joe G. Greener, Shaun M. Kandathil|arXiv (Cornell University)|2018. 11. 29.

Machine Learning in Bioinformatics인용 수 2

한 줄 요약

DMPfold는 공변하는 서열에서 잔기-잔기 거리 범위, 펩타이드 결합성 수소 결합, 회전 각도를 예측하는 딥러닝 기반 방법으로, 반복적으로 정확한 신규 단백질 모델을 구축한다. 이 방법은 CASP12 도메인에서 기존 방법보다 뛰어난 정확도를 달성했으며, 보편적인 컴퓨팅 클러스터에서 작동하는 데서도 작고 모델링이 어려운 Pfam '다크' 가족의 25%와 인간 UniProt 항목의 16%에 대해 일주일 이내에 신뢰할 수 있는 모델을 생성하였다.

ABSTRACT

The inapplicability of amino acid covariation methods to small protein families has limited their use for structural annotation of whole genomes. Recently, deep learning has shown promise in allowing accurate residue-residue contact prediction even for shallow sequence alignments. Here we introduce DMPfold, which uses deep learning to predict inter-atomic distance bounds, the main chain hydrogen bond network, and torsion angles, which it uses to build models in an iterative fashion. DMPfold produces more accurate models than two popular methods for a test set of CASP12 domains, and works just as well for transmembrane proteins. Applied to all Pfam domains without known structures, confident models for 25% of these so-called dark families were produced in under a week on a small 200 core cluster. DMPfold provides models for 16% of human proteome UniProt entries without structures, generates accurate models with fewer than 100 sequences in some cases, and is freely available.

연구 동기 및 목표

얕은 서열 정렬을 가진 작은 단백질 가족 모델링에서 기존 아미노산 공변 방법의 한계를 해결하기 위해.
딥러닝을 활용해 서열 데이터로부터 상호원자 간 거리 경계, 수소 결합 네트워크, 회전 각도를 예측하는 방법을 개발하기 위해.
이전에 특성화되지 않은 단백질 가족, 특히 막 단백질 및 100개 미만의 서열을 가진 단백질에 대해 정확한 신규 단백질 구조 모델링을 가능하게 하기 위해.
인간 단백질체와 Pfam 도메인의 알려지지 않은 구조를 포함한 전체 단백질체의 구조 주석을 효율적이고 확장 가능한 방식으로 제공하기 위해.

제안 방법

DMPfold는 시퀀스 깊이가 제한된 경우조차도 다중 서열 정렬에서 잔기-잔기 거리 경계를 딥러닝을 통해 예측한다.
구조 모델링을 안내하기 위해 펩타이드 뒷줄 수소 결합 네트워크와 회전 각도를 예측한다.
예측된 거리 제약 조건과 기하학적 제약 조건을 사용하여 단백질 구조를 반복적으로 정밀화하는 반복적 모델링 전략을 채택한다.
예측된 거리 경계와 2차 구조 정보를 통합하여 구조적 탐색을 안내하고 모델 정확도를 향상시킨다.
계산 효율성이 뛰어나 소규모 하드웨어 클러스터에서도 빠른 모델링이 가능하도록 설계되어 있다.
구조 예측 성능 최적화를 위해 공변 서열 데이터를 엔드 투 엔드로 훈련한다.

실험 결과

연구 질문

RQ1딥러닝은 얕은 서열 정렬을 가진 작은 단백질 가족에 대해 신규 단백질 구조 예측을 어떻게 향상시킬 수 있는가?
RQ2기존 알려진 템플릿이 없는 상황에서 예측된 거리 경계와 기하학적 제약 조건이 반복적 모델 빌딩에 얼마나 정확하게 기여할 수 있는가?
RQ3DMPfold는 Pfam의 이전에 특성화되지 않은 단백질 가족(어둠진 가족)과 인간 단백질체에서 얼마나 신뢰할 수 있는 모델을 생성할 수 있는가?
RQ4기존 방법과 비교할 때 DMPfold는 막 단백질과 같은 도전적인 타겟에서 어떻게 성능을 발휘하는가?
RQ5100개 미만의 입력 서열로 DMPfold가 높은 신뢰도의 모델을 생성할 수 있는가?

주요 결과

DMPfold는 CASP12 도메인 테스트 세트에서 두 가지 유명한 방법보다 정확도에서 뛰어나며, 뛰어난 모델 품질을 입증했다.
이 방법은 이전에 '다크 가족'으로 분류되었던 Pfam 도메인의 25%에 대해 확신할 수 있는 모델을 성공적으로 생성했다. 이는 알려진 구조가 없는 도메인을 의미한다.
실험적으로 결정된 구조가 없는 인간 단백질체 UniProt 항목의 16%에 대해 정확한 모델을 생성했다.
DMPfold는 다중 서열 정렬에서 100개 미만의 서열이 있을 경우에도 높은 정확도를 달성했으며, 이는 공변 기반 방법의 적용 범위를 작은 가족까지 확장시켰다.
200코어 클러스터에서 Pfam 어둠진 가족 전체의 모델링을 일주일 이내에 완료하여 높은 계산 효율성을 입증했다.
막 단백질에서도 양호한 성능을 보여, 다양한 단백질 유형에 걸쳐 뛰어난 강건성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.