[논문 리뷰] Using Sequence Alignments to Predict Protein Structure and Stability With High Accuracy
이 논문은 단일 단백질 구조 접힘 접합부위와 돌연변이에 의한 자유 에너지 변화를 높은 정확도로 예측할 수 있도록, 다중 서열 정렬을 활용해 잔기-잔기 상호작용을 추론하는 최대 엔트로피 볼츠만 네트워크 모델을 제안한다. 모든 서열 위치 간의 상관된 진화 패턴을 모델링함으로써, 이중 상관관계를 넘어서는 장거리 공진화 효과를 포착하여 실험적 안정성 및 구조 데이터와 강한 일치를 이룬다.
We present a sequence-based probabilistic formalism that directly addresses co-operative effects in networks of interacting positions in proteins, providing significantly improved contact prediction, as well as accurate quantitative prediction of free energy changes due to non-additive effects of multiple mutations. In addition to these practical considerations, the agreement of our sequence-based calculations with experimental data for both structure and stability demonstrates a strong relation between the statistical distribution of protein sequences produced by natural evolutionary processes, and the thermodynamic stability of the structures to which these sequences fold.
연구 동기 및 목표
- 단백질 내 아미노산 위치 간의 상호작용을 고립된 이원상관관계를 넘어서서 네트워크화된 공진화적 상호작용을 포괄하는 서열 기반 형식을 개발한다.
- 자연 서열 변동 뿐만으로도 다중 돌연변이에 의한 단백질 접촉 지도와 자유 에너지 변화를 정량적으로 높은 정확도로 예측한다.
- 자연적으로 진화한 단백질 서열의 통계적 분포가 그들의 열역학적 안정성과 구조적 제약 조건을 반영하고 있음을 입증한다.
- 진화 서열 데이터로부터 물리적 상호작용 매개변수를 유추하기 위한 엄밀한 역통계역학 프레임워크를 제공한다.
- 유도된 에너지 모델을 활용하여 시뮬레이션을 통해 시퀀스 공간을 탐색하고 새로운 안정적인 단백질 서열을 설계할 수 있도록 한다.
제안 방법
- 각 잔기 위치를 20개의 상태(아미노산)를 가진 스핀으로 간주하는 20상태 스핀 시스템으로 단백질 서열을 수식화하고, 상호작용은 알려지지 않은 물리적 매개변수로 정의한다.
- 관측된 단일 및 이원 아미노산 빈도를 정렬 자료로부터 일치시키기 위해 최대 엔트로피 원리를 적용하여 전체 서열에 대한 확률 분포를 유도한다.
- 유도된 에너지 함수(식 2)는 위치별 및 이원 상호작용 매개변수(λ)를 포함하며, 이는 경험적 서열 빈도에 적합함으로써 추정된다.
- 유도된 에너지 모델을 사용하여 강하게 상관된 잔기 쌍을 식별함으로써 접촉 지도를 예측하고, 다중 돌연변이에 의한 ΔG 변화를 추정한다.
- 확장된 람 스케줄을 적용한 시뮬레이티드 어닐링을 사용하여 거대한 시퀀스 공간(예: 20^11개 서열)을 탐색하고 고안정성 핵 서열을 식별한다.
- Fyn SH3 도메인 돌연변이의 실험적 융해 온도 데이터와 예측 결과를 비교 검증한다.
실험 결과
연구 질문
- RQ1서열 정렬 기반의 통계 모델이 접힌 단백질 구조에서 어떤 잔기 쌍이 공간적으로 가까이 있는지를 정확히 예측할 수 있는가?
- RQ2다중 돌연변이의 공진화적 비가산적 효과는 얼마나 정확히 진화 서열 공변동 패턴으로부터 예측할 수 있는가?
- RQ3자연 서열 데이터로부터 추정된 에너지 모델이 실험적으로 측정된 단백질 안정성(예: 융해 온도)과 얼마나 잘 일치하는가?
- RQ4유도된 에너지 함수를 활용하여 시퀀스 공간을 탐색함으로써 천연 서열에 존재하지 않는 새로운 안정적인 단백질 서열을 식별할 수 있는가?
- RQ5자연 단백질 서열의 통계적 분포는 그 접힌 구조의 잠재적 열역학적 안정성과 얼마나 잘 반영하고 있는가?
주요 결과
- 이 방법은 Fyn SH3 도메인에서 잔기 접촉 예측에 높은 정확도를 보이며, 이중 상관관계 모델을 넘어서는 장거리 공진화 효과를 포착함으로써 슈퍼어워드를 기록한다.
- 다중 돌연변이에 의한 예측된 자유 에너지 변화(ΔG)는 실험적으로 측정된 융해 온도와 강한 상관관계(R² ≈ 0.8)를 보였다.
- Fyn SH3의 위치 26, 39, 50에서 가능한 20³가지의 삼중 돌연변이를 전수 조사한 결과, 실험적으로 관측된 범위 내 융해 온도를 예측한 50개의 서열을 식별하였다.
- Fyn SH3의 히드로포빅 핵에서 20¹¹개의 서열 탐색 공간에서 가장 안정적인 50개의 서열 중 26개가 원본 정렬(천연 서열)에 존재함을 확인하여 모델의 예측 능력을 검증하였다.
- 모델은 자연에 존재하지 않는 새로운 고안정성 서열을 성공적으로 예측하였으며, 융해 온도가 최대 84.9 °C에 이르는 서열도 포함되었다.
- 분석 결과, 정렬에서 희귀 아미노산을 포함한 서열은 λ 매개변수가 잘 결정되지 않아 유의미한 예측에서 제외되었으며, 이는 모델의 강건성과 한계를 드러내었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.