Skip to main content
QUICK REVIEW

[논문 리뷰] Deep transfer learning in the assessment of the quality of protein models

David Menéndez Hurtado, Karolis Uziela|arXiv (Cornell University)|2018. 04. 17.
Protein Structure and Dynamics인용 수 36
한 줄 요약

이 논문은 시퀀스 기반 예측에서 유도된 최소한의 구조적 특징을 사용하여 단백질 모델 품질 평가를 위한 딥 트랜스퍼 러닝 프레임워크를 제안한다. 사전 훈련된 컨볼루션 네트워크와 비교적 순위를 인코딩하는 트리세팔러스 아키텍처를 활용함으로써, 입력 복잡도를 감소시키면서도 기존 모델보다 전역 점수 예측 및 타겟 순위 매기기에서 최신 기술 수준(SOTA) 성능을 달성한다. 이는 구조적 입력이 조잡한 편임에도 불구하고 성과를 내고 있다.

ABSTRACT

MOTIVATION: Proteins fold into complex structures that are crucial for their biological functions. Experimental determination of protein structures is costly and therefore limited to a small fraction of all known proteins. Hence, different computational structure prediction methods are necessary for the modelling of the vast majority of all proteins. In most structure prediction pipelines, the last step is to select the best available model and to estimate its accuracy. This model quality estimation problem has been growing in importance during the last decade, and progress is believed to be important for large scale modelling of proteins. The current generation of model quality estimation programs performs well at separating incorrect and good models, but fails to consistently identify the best possible model. State-of-the-art model quality assessment methods use a combination of features that describe a model and the agreement of the model with features predicted from the protein sequence. RESULTS: We first introduce a deep neural network architecture to predict model quality using significantly fewer input features than state-of-the-art methods. Thereafter, we propose a methodology to train the deep network that leverages the comparative structure of the problem. We also show the possibility of applying transfer learning on databases of known protein structures. We demonstrate its viability by reaching state-of-the-art performance using only a reduced set of input features and a coarse description of the models. AVAILABILITY: The code will be freely available for download at github.com/ElofssonLab/ProQ4.

연구 동기 및 목표

  • 대규모 구조 생물정보학 파이프라인에서 여러 예측 결과 중 가장 우수한 단백질 모델을 선별하는 데 도전 과제를 해결하기 위해.
  • 단순히 시퀀스 예측된 성질만을 입력으로 사용하여 복잡한 구조적 특징에 대한 의존도를 줄이기 위해.
  • 트랜스퍼 러닝과 구조적 딥 러닝 아키텍처를 통해 모델 품질 평가 성능을 향상시키기 위해.
  • 측면 체인 패킹이나 외부 도구에 의존하지 않고도 확장 가능하고 빠르며 강건한 품질 평가를 가능하게 하기 위해.
  • 공유된 예측기에서 발생하는 편향을 줄이기 위해 원시 출력이 아닌 학습된 표현을 기반으로 훈련함으로써.

제안 방법

  • 동일한 단백질의 여러 모델을 비교하기 위해 설계된 트리세팔러스 딥 신경망 아키텍처를 사용하여 상대적 품질 순위를 학습한다.
  • 일반적인 구조적 특징을 시퀀스 유도 입력(예: 2차 구조, 용매 접근성 등)으로부터 학습하기 위해 알려진 단백질 구조 데이터베이스에서 사전 훈련을 수행한다.
  • 유사하지만 다른 데이터셋에서 관련된 데이터셋에 대해 사전 훈련된 모델의 특징을 초기화하여 네트워크를 초기화함으로써 트랜스퍼 러닝을 적용하고 일반화 능력을 향상시킨다.
  • 세부 3차원 좌표를 피하기 위해 단백질의 2차 구조, 용매 접근성, 잔류물 깊이와 같은 근본적인 구조적 묘사만을 사용한다.
  • 모델 쌍을 네트워크에 입력하여 어느 것이 더 좋은지 예측하도록 비교 학습을 구현함으로써 순위 정확도를 향상시킨다.
  • 전역 및 국소 점수 예측, 타겟 순위 매기기 최적화를 위한 손실 함수를 사용하여 CASP11 데이터에서 모델을 피지터닝한다.
Figure 1 : Detail of the 3D structure of the protein 3TDU. Highlighted in yellow are the residues that smoothly transition between helix and coil. Predictions are commonly wrong about the exact position of the boundary.
Figure 1 : Detail of the 3D structure of the protein 3TDU. Highlighted in yellow are the residues that smoothly transition between helix and coil. Predictions are commonly wrong about the exact position of the boundary.

실험 결과

연구 질문

  • RQ1딥 러닝 모델이 오직 시퀀스 기반 특징만을 사용하여 단백질 모델 품질 평가에서 최신 기술 수준(SOTA) 성능을 달성할 수 있는가?
  • RQ2기존 단백질 구조에서의 트랜스퍼 러닝이 모델 품질 예측 성능에 어떻게 기여하는가?
  • RQ3순위 기반 비교 학습 전략이 표준 회귀 모델에 비해 얼마나 예측 정확도를 향상시키는가?
  • RQ42차 구조와 용매 접근성에 국한된 최소 입력 표현 방식이 여전히 높은 성능을 낼 수 있는가?
  • RQ5내부 표현을 기반으로 학습함으로써 외부 도구에 의존하지 않고 공유 예측기에서 발생하는 편향을 줄일 수 있는가?

주요 결과

  • 제안된 방법 ProQ4는 CASP11에서 최신 기술 수준(SOTA) 성능을 달성하였으며, 입력 특징 수를 줄였음에도 불구하고 전역 점수 예측 및 타겟 순위 매기기에서 기존 방법들을 능가한다.
  • 트랜스퍼 러닝은 컨볼루션 신경망 아키텍처에서 성능 향상에 크게 기여하지만, 다층 퍼셉트론은 사전 훈련을 통해 성능 향상가능성이 없거나 오히려 저하될 수 있다.
  • 트리세팔러스 아키텍처는 효과적으로 모델 순위를 학습하여 진짜 점수와 강한 일치를 보이며, 다른 최고 성능을 내는 방법들과 높은 상관관계를 보인다.
  • 측면 체인 패킹의 변동성에 대해 강건함을 보이며, 명시적인 3차원 좌표에 의존하지 않는 근본적인 구조적 특징만을 사용하기 때문이다.
  • 상관계수 행렬은 ProQ4의 예측이 다른 고성능 방법들과 매우 일관되며, 신뢰할 수 있고 안정적인 성능을 보임을 보여준다.
  • 최소한의 입력 조건에서도 높은 성능를 달성함으로써, 딥 러닝이 저차원의 시퀀스 기반 특징에서 의미 있는 품질 신호를 효과적으로 추출할 수 있음을 시사한다.
Figure 2 : The 1D ResNet module, the main building block of our convolutional nets
Figure 2 : The 1D ResNet module, the main building block of our convolutional nets

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.