[논문 리뷰] Learning protein sequence embeddings using information from structure
이 논문은 글로벌 구조 유사성 및 국소 잔기 접촉으로부터의 약한 감독으로 단백질 서열을 잔기별 임베딩으로 매핑하는 양방향 LSTM 기반 인코더를 학습시켜, 서열 기반 구조 유사성 예측을 향상시키고 트랜스머브레이 지역 예측과 같은 다른 작업으로의 전이 가능성을 제공한다.
Inferring the structural properties of a protein from its amino acid sequence is a challenging yet important problem in biology. Structures are not known for the vast majority of protein sequences, but structure is critical for understanding function. Existing approaches for detecting structural similarity between proteins from sequence are unable to recognize and exploit structural patterns when sequences have diverged too far, limiting our ability to transfer knowledge between structurally related proteins. We newly approach this problem through the lens of representation learning. We introduce a framework that maps any protein sequence to a sequence of vector embeddings --- one per amino acid position --- that encode structural information. We train bidirectional long short-term memory (LSTM) models on protein sequences with a two-part feedback mechanism that incorporates information from (i) global structural similarity between proteins and (ii) pairwise residue contact maps for individual proteins. To enable learning from structural similarity information, we define a novel similarity measure between arbitrary-length sequences of vector embeddings based on a soft symmetric alignment (SSA) between them. Our method is able to learn useful position-specific embeddings despite lacking direct observations of position-level correspondence between sequences. We show empirically that our multi-task framework outperforms other sequence-based methods and even a top-performing structure-based alignment method when predicting structural similarity, our goal. Finally, we demonstrate that our learned embeddings can be transferred to other protein sequence problems, improving the state-of-the-art in transmembrane domain prediction.
연구 동기 및 목표
- 서열에서 구조 맥락 정보를 인코딩하는 단백질 표현을 학습하도록 동기를 부여하고 글로벌 구조 유사성에서의 약한 감독으로 학습시키기.
- 임베딩 시퀀스를 비교하기 위한 차분 가능한 소프트 대칭 정렬(SSA) 메커니즘 개발.
- 임베딩의 위치 차원 감독 신호로 잔기-잔기 접촉 정보를 포함하여 임베딩을 개선하기.
- 학습된 임베딩이 구조 유사성 예측을 개선하고 트랜스머브레이드 예측과 같은 다른 단백질 예측 작업으로의 전이를 보여주기.
제안 방법
- 시퀀스를 100 차원 임베딩의 시퀀스로 매핑하는 3 계층 양방향 LSTM(biLSTM) 인코더 사용.
- 인코더 입력으로 사전 학습된 단백질 언어 모델(Pfam)의 숨겨진 상태를 선택적으로 포함.
- 두 임베딩 시퀀스 간의 글로벌 유사도 점수를 계산하기 위한 소프트 대칭 정렬(SSA) 정의.
- 정렬 점수를 Monotonic 제약을 갖는 서수 회귀를 통해 SCOP 기반 유사성 수준과 연관시키기.
- 쌍별 임베딩 특징과 합성곱 예측기를 이용한 잔기-잔기 접촉 예측 작업으로 목표를 보강.
- 유사성 및 접촉 예측 손실을 결합한 다중 작업 손실(lambda로 가중치 부여)로 엔드 투 엔드 학습.
실험 결과
연구 질문
- RQ1시퀀스로부터 학습된 잔기별 임베딩이 위치 수준 정렬 데이터 없이도 구조 맥락 정보를 포착할 수 있는가?
- RQ2잉여 소프트 대칭 정렬이 임베딩 시퀀스 비교를 위한 다른 정렬 스킴보다 우수한가?
- RQ3로컬 접촉 정보를 포함시키면 학습된 임베딩과 다운스트림 예측이 개선되는가?
- RQ4학습된 임베딩이 트랜스머브레이드 예측과 같은 다른 단백질 예측 작업으로 전이 가능한가?
주요 결과
| 모델 | 정확도 | r | ρ | 클래스 | 폴드 | 슈퍼패밀리 | 패밀리 |
|---|---|---|---|---|---|---|---|
| NW-align | 0.78462 | 0.18854 | 0.14046 | 0.30898 | 0.40875 | 0.58435 | 0.52703 |
| phmmer [HMMER 3.2.1] | 0.78454 | 0.21657 | 0.06857 | 0.26022 | 0.34655 | 0.53576 | 0.50316 |
| HHalign [HHsuite 3.0.0] | 0.78851 | 0.36759 | 0.23240 | 0.40347 | 0.62065 | 0.86444 | 0.52220 |
| TMalign | 0.80831 | 0.61687 | 0.37405 | 0.54866 | 0.85072 | 0.83340 | 0.57059 |
| SSA (full) | 0.95149 | 0.90954 | 0.69018 | 0.91458 | 0.90229 | 0.95262 | 0.64781 |
| NW-align | 0.80842 | 0.37671 | 0.23101 | 0.43953 | 0.77081 | 0.86631 | 0.82442 |
| phmmer [HMMER 3.2.1] | 0.80907 | 0.65326 | 0.25063 | 0.38253 | 0.72475 | 0.82879 | 0.81116 |
| HHalign [HHsuite 3.0.0] | 0.80883 | 0.68831 | 0.27032 | 0.47761 | 0.83886 | 0.94122 | 0.82284 |
| TMalign | 0.81275 | 0.81354 | 0.39702 | 0.59277 | 0.91588 | 0.93936 | 0.82301 |
| SSA (full) | 0.93151 | 0.92900 | 0.66860 | 0.89444 | 0.93966 | 0.96266 | 0.86602 |
- SSA 임베딩 모델은 서열에서 구조적 유사성 예측에 대해 최첨단 성능을 달성하며, N-서열 기반 방법보다 우수하고 SCOP 기반 작업에서 구조 기반 정렬기(TMalign)보다도 우수하다.
- SCOPe ASTRAL 2.06 테스트 세트에서 SSA(full)은 정확도 0.95149, 피어슨 상관계수 r = 0.90954, 스피어만 ρ = 0.69018 를 달성하고, 클래스/폴드/슈퍼패밀리/패밀리 검색의 평균 정밀도에서 베이스라인보다 우수하다.
- SCOPe 2.07 신규 테스트 세트에서 SSA(full)은 정확도 0.93151, r = 0.92900, ρ = 0.66860를 달성하며 폴드/슈퍼패밀리/패밀리 검색에서 강한 성능을 보인다.
- 아브레이션은 SSA 정렬, 언어 모델 입력, 잔기 접촉 감독 포함이 구조적 유사성 및 2차 구조 예측을 개선하는 데 기여함을 보여준다.
- 대규모 비표지 단백질 시퀀스에 대한 언어 모델 사전학습이 LM 입력을 사용하지 않는 경우보다 SCOP 유사성 분류를 크게 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.