[논문 리뷰] Predicting mutational effects on protein-protein binding via a side-chain diffusion probabilistic model
사이드체인Diff은 단백질 인터페이스에서 사이드 체인 컨포메이션을 학습하는 확산 기반 모델로, 결합에 대한 돌연변이 영향 ΔΔG를 예측하여 SKEMPI2 및 SARS-CoV-2 데이터셋에서 최첨단 성능을 달성하고, DiffAffinity가 SidechainDiff 표현을 활용해 결합 변화 예측 및 항체 최적화에 사용합니다.
Many crucial biological processes rely on networks of protein-protein interactions. Predicting the effect of amino acid mutations on protein-protein binding is vital in protein engineering and therapeutic discovery. However, the scarcity of annotated experimental data on binding energy poses a significant challenge for developing computational approaches, particularly deep learning-based methods. In this work, we propose SidechainDiff, a representation learning-based approach that leverages unlabelled experimental protein structures. SidechainDiff utilizes a Riemannian diffusion model to learn the generative process of side-chain conformations and can also give the structural context representations of mutations on the protein-protein interface. Leveraging the learned representations, we achieve state-of-the-art performance in predicting the mutational effects on protein-protein binding. Furthermore, SidechainDiff is the first diffusion-based generative model for side-chains, distinguishing it from prior efforts that have predominantly focused on generating protein backbone structures.
연구 동기 및 목표
- 유한한 라벨 데이터 속에서 단백질-단백질 결합에 미치는 돌연변이 효과를 정확히 예측하는 것을 목표로 한다.
- 인터페이스에 있는 단백질 사이드 체인에 대한 확산 기반 생성 모델을 개발한다.
- 돌연변이의 구조적 맥락 표현을 학습하여 ΔΔG 예측을 향상시킨다.
- 학습된 표현의 항체 최적화 및 SARS-CoV-2 관련 작업에 대한 활용성을 보여준다.
제안 방법
- SidechainDiff 도입, SE(3)-불변 구조 맥락에 조건화된 4D 토러스(T^4) 위의 사이드-체인 로타머를 위한 조건부 리만 확산 모델.
- 앞으로의 확산을 T^4에서의 지오메트릭 랜덤 워크로 모델링하고, 점수 함수 s_theta(X,t,Z)를 MLP로 학습하며, Z는 돌연변이 맥락을 인코딩한다.
- 조건 인코더(SE(3)-불변 IPA 네트워크)를 사용하여 per-residue 및 쌍 구조 특징으로부터 Z를 생성한다.
- De Bortoli 등(2022)의 암시적 손실에 따른 점수 기반 확산에 따라 정제된 PDB-REDO 구조로 SidechainDiff를 학습한다.
- DiffAffinity를 사이드체인Diff 임베딩을 사용해 ΔΔG를 예측하는 다운스트림 예측기로 정의하고, IPA 유사 트랜스포머와 MLP 헤드를 사용한다.
실험 결과
연구 질문
- RQ1확산 기반 모델이 인터페이스에서 단백질 사이드 체인 컨포메이션의 생성 분포를 학습할 수 있는가?
- RQ2학습된 사이드 체인 표현이 기존 방법들과 비교해 단백질-단백질 결합에 대한 돌연변이 효과 ΔΔG 예측의 정확성을 향상시키는가?
- RQ3SidechainDiff 표현이 항체 최적화 및 SARS-CoV-2 결합 예측과 같은 다운스트림 작업에 유익한가?
주요 결과
| 방법 | 돌연변이 | 피어슨 | 스피어만 | RMSE | MAE | AUROC | AUPRC | 구조별 피어슨 | 구조별 스피어만 |
|---|---|---|---|---|---|---|---|---|---|
| FoldX | all | 0.319 | 0.416 | 1.959 | 1.357 | 0.671 | 0.839 | 0.376 | 0.375 |
| FoldX | single | 0.315 | 0.361 | 1.651 | 1.146 | 0.657 | 0.839 | 0.382 | 0.360 |
| FoldX | multiple | 0.256 | 0.418 | 2.608 | 1.926 | 0.704 | 0.841 | 0.333 | 0.340 |
| Rosetta | all | 0.311 | 0.346 | 1.617 | 1.131 | 0.656 | 0.810 | 0.328 | 0.298 |
| Rosetta | single | 0.325 | 0.367 | 1.183 | 0.987 | 0.674 | 0.834 | 0.351 | 0.418 |
| Rosetta | multiple | 0.199 | 0.230 | 2.658 | 2.024 | 0.621 | 0.798 | 0.191 | 0.083 |
| flex ddG | all | 0.402 | 0.427 | 1.587 | 1.102 | 0.675 | 0.866 | 0.414 | 0.386 |
| flex ddG | single | 0.425 | 0.431 | 1.457 | 0.997 | 0.677 | 0.874 | 0.433 | 0.435 |
| flex ddG | multiple | 0.398 | 0.419 | 1.765 | 1.326 | 0.669 | 0.854 | 0.401 | 0.363 |
| ESM-1v | all | 0.192 | 0.157 | 1.961 | 1.368 | 0.541 | 0.735 | 0.007 | -0.012 |
| ESM-1v | single | 0.191 | 0.157 | 1.723 | 1.192 | 0.549 | 0.770 | 0.042 | 0.027 |
| ESM-1v | multiple | 0.192 | 0.175 | 2.759 | 2.119 | 0.542 | 0.678 | -0.060 | -0.128 |
| ESM-IF | all | 0.319 | 0.281 | 1.886 | 1.286 | 0.590 | 0.768 | 0.224 | 0.202 |
| ESM-IF | single | 0.296 | 0.287 | 1.673 | 1.137 | 0.605 | 0.776 | 0.391 | 0.364 |
| ESM-IF | multiple | 0.326 | 0.335 | 2.645 | 1.956 | 0.637 | 0.754 | 0.202 | 0.149 |
| ESM2 | all | 0.133 | 0.138 | 2.048 | 1.460 | 0.547 | 0.738 | 0.044 | 0.039 |
| ESM2 | single | 0.100 | 0.120 | 1.730 | 1.210 | 0.541 | 0.734 | 0.019 | 0.036 |
| ESM2 | multiple | 0.170 | 0.163 | 2.658 | 2.021 | 0.566 | 0.746 | 0.010 | 0.010 |
| ESM2* | all | 0.623 | 0.498 | 1.615 | 1.179 | 0.721 | 0.887 | 0.362 | 0.316 |
| ESM2* | single | 0.625 | 0.468 | 1.357 | 0.986 | 0.707 | 0.879 | 0.391 | 0.342 |
| ESM2* | multiple | 0.603 | 0.529 | 2.15 | 1.67 | 0.758 | 0.909 | 0.333 | 0.304 |
| DDGPred | all | 0.630 | 0.400 | 1.313 | 0.995 | 0.696 | 0.892 | 0.356 | 0.321 |
| DDGPred | single | 0.652 | 0.359 | 1.309 | 0.936 | 0.656 | 0.884 | 0.351 | 0.318 |
| DDGPred | multiple | 0.591 | 0.503 | 2.181 | 1.670 | 0.759 | 0.913 | 0.373 | 0.385 |
| RDE-Net | all | 0.632 | 0.527 | 1.601 | 1.142 | 0.731 | 0.887 | 0.415 | 0.376 |
| RDE-Net | single | 0.637 | 0.491 | 1.341 | 0.961 | 0.720 | 0.885 | 0.413 | 0.385 |
| RDE-Net | multiple | 0.601 | 0.567 | 2.157 | 1.631 | 0.768 | 0.898 | 0.390 | 0.360 |
| DA-Linear 1 | all | 0.326 | 0.305 | 1.954 | 1.399 | 0.642 | 0.857 | 0.222 | 0.222 |
| DA-Linear 1 | single | 0.318 | 0.293 | 1.649 | 1.175 | 0.651 | 0.854 | 0.209 | 0.202 |
| DA-Linear 1 | multiple | 0.277 | 0.288 | 2.593 | 1.961 | 0.629 | 0.867 | 0.193 | 0.195 |
| DiffAffinity* | all | 0.646 | 0.538 | 1.578 | 1.113 | 0.742 | 0.741 | 0.415 | 0.392 |
| DiffAffinity* | single | 0.657 | 0.523 | 1.312 | 0.931 | 0.742 | 0.741 | 0.417 | 0.396 |
| DiffAffinity* | multiple | 0.613 | 0.542 | 2.133 | 1.606 | 0.750 | 0.750 | 0.407 | 0.379 |
| DiffAffinity | all | 0.669 | 0.556 | 1.535 | 1.093 | 0.744 | 0.896 | 0.422 | 0.397 |
| DiffAffinity | single | 0.672 | 0.523 | 1.288 | 0.923 | 0.733 | 0.887 | 0.429 | 0.409 |
| DiffAffinity | multiple | 0.650 | 0.602 | 2.051 | 1.540 | 0.784 | 0.921 | 0.414 | 0.387 |
- DiffAffinity는 SKEMPI2에서 다수 지표에 대해 최첨단 성능을 달성하며, 에너지 기반, 시퀀스 기반, 비지도, 엔드투엔드 및 사전 학습 베이스라인을 능가한다.
- 단일 및 다중 지점 돌연변이에서 DiffAffinity 및 DiffAffinity*가 베이스라인을 능가하고, SidechainDiff 표현으로 DiffAffinity가 약간 더 우수하다.
- SARS-CoV-2 RBD 돌연변이에서 DiffAffinity는 15개 중요한 위치와 285개의 단일 포인트 돌연변이에 대해 타 방법보다 더 높은 피어슨 상관계수를 보인다.
- DiffAffinity는 유리한 돌연변이를 순위화하여 항체 최적화를 향상시키며 상위 돌연변이 순위에서 FoldX, RDE-Net 및 DiffAffinity*를 지속적으로 능가한다.
- SidechainDiff는 기저 대비 공간 충돌 수가 더 낮고 딥러닝 방법 대비 MAE가 유리한 것으로 사이드 체인 로타머 예측에서 경쟁력 있는 성능을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.