QUICK REVIEW

[논문 리뷰] Predicting mutational effects on protein-protein binding via a side-chain diffusion probabilistic model

Shiwei Liu, Zhu Tian|arXiv (Cornell University)|2023. 10. 30.

Protein Structure and Dynamics인용 수 10

한 줄 요약

사이드체인Diff은 단백질 인터페이스에서 사이드 체인 컨포메이션을 학습하는 확산 기반 모델로, 결합에 대한 돌연변이 영향 ΔΔG를 예측하여 SKEMPI2 및 SARS-CoV-2 데이터셋에서 최첨단 성능을 달성하고, DiffAffinity가 SidechainDiff 표현을 활용해 결합 변화 예측 및 항체 최적화에 사용합니다.

ABSTRACT

Many crucial biological processes rely on networks of protein-protein interactions. Predicting the effect of amino acid mutations on protein-protein binding is vital in protein engineering and therapeutic discovery. However, the scarcity of annotated experimental data on binding energy poses a significant challenge for developing computational approaches, particularly deep learning-based methods. In this work, we propose SidechainDiff, a representation learning-based approach that leverages unlabelled experimental protein structures. SidechainDiff utilizes a Riemannian diffusion model to learn the generative process of side-chain conformations and can also give the structural context representations of mutations on the protein-protein interface. Leveraging the learned representations, we achieve state-of-the-art performance in predicting the mutational effects on protein-protein binding. Furthermore, SidechainDiff is the first diffusion-based generative model for side-chains, distinguishing it from prior efforts that have predominantly focused on generating protein backbone structures.

연구 동기 및 목표

유한한 라벨 데이터 속에서 단백질-단백질 결합에 미치는 돌연변이 효과를 정확히 예측하는 것을 목표로 한다.
인터페이스에 있는 단백질 사이드 체인에 대한 확산 기반 생성 모델을 개발한다.
돌연변이의 구조적 맥락 표현을 학습하여 ΔΔG 예측을 향상시킨다.
학습된 표현의 항체 최적화 및 SARS-CoV-2 관련 작업에 대한 활용성을 보여준다.

제안 방법

SidechainDiff 도입, SE(3)-불변 구조 맥락에 조건화된 4D 토러스(T^4) 위의 사이드-체인 로타머를 위한 조건부 리만 확산 모델.
앞으로의 확산을 T^4에서의 지오메트릭 랜덤 워크로 모델링하고, 점수 함수 s_theta(X,t,Z)를 MLP로 학습하며, Z는 돌연변이 맥락을 인코딩한다.
조건 인코더(SE(3)-불변 IPA 네트워크)를 사용하여 per-residue 및 쌍 구조 특징으로부터 Z를 생성한다.
De Bortoli 등(2022)의 암시적 손실에 따른 점수 기반 확산에 따라 정제된 PDB-REDO 구조로 SidechainDiff를 학습한다.
DiffAffinity를 사이드체인Diff 임베딩을 사용해 ΔΔG를 예측하는 다운스트림 예측기로 정의하고, IPA 유사 트랜스포머와 MLP 헤드를 사용한다.

실험 결과

연구 질문

RQ1확산 기반 모델이 인터페이스에서 단백질 사이드 체인 컨포메이션의 생성 분포를 학습할 수 있는가?
RQ2학습된 사이드 체인 표현이 기존 방법들과 비교해 단백질-단백질 결합에 대한 돌연변이 효과 ΔΔG 예측의 정확성을 향상시키는가?
RQ3SidechainDiff 표현이 항체 최적화 및 SARS-CoV-2 결합 예측과 같은 다운스트림 작업에 유익한가?

주요 결과

방법	돌연변이	피어슨	스피어만	RMSE	MAE	AUROC	AUPRC	구조별 피어슨	구조별 스피어만
FoldX	all	0.319	0.416	1.959	1.357	0.671	0.839	0.376	0.375
FoldX	single	0.315	0.361	1.651	1.146	0.657	0.839	0.382	0.360
FoldX	multiple	0.256	0.418	2.608	1.926	0.704	0.841	0.333	0.340
Rosetta	all	0.311	0.346	1.617	1.131	0.656	0.810	0.328	0.298
Rosetta	single	0.325	0.367	1.183	0.987	0.674	0.834	0.351	0.418
Rosetta	multiple	0.199	0.230	2.658	2.024	0.621	0.798	0.191	0.083
flex ddG	all	0.402	0.427	1.587	1.102	0.675	0.866	0.414	0.386
flex ddG	single	0.425	0.431	1.457	0.997	0.677	0.874	0.433	0.435
flex ddG	multiple	0.398	0.419	1.765	1.326	0.669	0.854	0.401	0.363
ESM-1v	all	0.192	0.157	1.961	1.368	0.541	0.735	0.007	-0.012
ESM-1v	single	0.191	0.157	1.723	1.192	0.549	0.770	0.042	0.027
ESM-1v	multiple	0.192	0.175	2.759	2.119	0.542	0.678	-0.060	-0.128
ESM-IF	all	0.319	0.281	1.886	1.286	0.590	0.768	0.224	0.202
ESM-IF	single	0.296	0.287	1.673	1.137	0.605	0.776	0.391	0.364
ESM-IF	multiple	0.326	0.335	2.645	1.956	0.637	0.754	0.202	0.149
ESM2	all	0.133	0.138	2.048	1.460	0.547	0.738	0.044	0.039
ESM2	single	0.100	0.120	1.730	1.210	0.541	0.734	0.019	0.036
ESM2	multiple	0.170	0.163	2.658	2.021	0.566	0.746	0.010	0.010
ESM2*	all	0.623	0.498	1.615	1.179	0.721	0.887	0.362	0.316
ESM2*	single	0.625	0.468	1.357	0.986	0.707	0.879	0.391	0.342
ESM2*	multiple	0.603	0.529	2.15	1.67	0.758	0.909	0.333	0.304
DDGPred	all	0.630	0.400	1.313	0.995	0.696	0.892	0.356	0.321
DDGPred	single	0.652	0.359	1.309	0.936	0.656	0.884	0.351	0.318
DDGPred	multiple	0.591	0.503	2.181	1.670	0.759	0.913	0.373	0.385
RDE-Net	all	0.632	0.527	1.601	1.142	0.731	0.887	0.415	0.376
RDE-Net	single	0.637	0.491	1.341	0.961	0.720	0.885	0.413	0.385
RDE-Net	multiple	0.601	0.567	2.157	1.631	0.768	0.898	0.390	0.360
DA-Linear 1	all	0.326	0.305	1.954	1.399	0.642	0.857	0.222	0.222
DA-Linear 1	single	0.318	0.293	1.649	1.175	0.651	0.854	0.209	0.202
DA-Linear 1	multiple	0.277	0.288	2.593	1.961	0.629	0.867	0.193	0.195
DiffAffinity*	all	0.646	0.538	1.578	1.113	0.742	0.741	0.415	0.392
DiffAffinity*	single	0.657	0.523	1.312	0.931	0.742	0.741	0.417	0.396
DiffAffinity*	multiple	0.613	0.542	2.133	1.606	0.750	0.750	0.407	0.379
DiffAffinity	all	0.669	0.556	1.535	1.093	0.744	0.896	0.422	0.397
DiffAffinity	single	0.672	0.523	1.288	0.923	0.733	0.887	0.429	0.409
DiffAffinity	multiple	0.650	0.602	2.051	1.540	0.784	0.921	0.414	0.387

DiffAffinity는 SKEMPI2에서 다수 지표에 대해 최첨단 성능을 달성하며, 에너지 기반, 시퀀스 기반, 비지도, 엔드투엔드 및 사전 학습 베이스라인을 능가한다.
단일 및 다중 지점 돌연변이에서 DiffAffinity 및 DiffAffinity*가 베이스라인을 능가하고, SidechainDiff 표현으로 DiffAffinity가 약간 더 우수하다.
SARS-CoV-2 RBD 돌연변이에서 DiffAffinity는 15개 중요한 위치와 285개의 단일 포인트 돌연변이에 대해 타 방법보다 더 높은 피어슨 상관계수를 보인다.
DiffAffinity는 유리한 돌연변이를 순위화하여 항체 최적화를 향상시키며 상위 돌연변이 순위에서 FoldX, RDE-Net 및 DiffAffinity*를 지속적으로 능가한다.
SidechainDiff는 기저 대비 공간 충돌 수가 더 낮고 딥러닝 방법 대비 MAE가 유리한 것으로 사이드 체인 로타머 예측에서 경쟁력 있는 성능을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.