Skip to main content
QUICK REVIEW

[논문 리뷰] Predicting mutational effects on protein-protein binding via a side-chain diffusion probabilistic model

Shiwei Liu, Zhu Tian|arXiv (Cornell University)|2023. 10. 30.
Protein Structure and Dynamics인용 수 10
한 줄 요약

사이드체인Diff은 단백질 인터페이스에서 사이드 체인 컨포메이션을 학습하는 확산 기반 모델로, 결합에 대한 돌연변이 영향 ΔΔG를 예측하여 SKEMPI2 및 SARS-CoV-2 데이터셋에서 최첨단 성능을 달성하고, DiffAffinity가 SidechainDiff 표현을 활용해 결합 변화 예측 및 항체 최적화에 사용합니다.

ABSTRACT

Many crucial biological processes rely on networks of protein-protein interactions. Predicting the effect of amino acid mutations on protein-protein binding is vital in protein engineering and therapeutic discovery. However, the scarcity of annotated experimental data on binding energy poses a significant challenge for developing computational approaches, particularly deep learning-based methods. In this work, we propose SidechainDiff, a representation learning-based approach that leverages unlabelled experimental protein structures. SidechainDiff utilizes a Riemannian diffusion model to learn the generative process of side-chain conformations and can also give the structural context representations of mutations on the protein-protein interface. Leveraging the learned representations, we achieve state-of-the-art performance in predicting the mutational effects on protein-protein binding. Furthermore, SidechainDiff is the first diffusion-based generative model for side-chains, distinguishing it from prior efforts that have predominantly focused on generating protein backbone structures.

연구 동기 및 목표

  • 유한한 라벨 데이터 속에서 단백질-단백질 결합에 미치는 돌연변이 효과를 정확히 예측하는 것을 목표로 한다.
  • 인터페이스에 있는 단백질 사이드 체인에 대한 확산 기반 생성 모델을 개발한다.
  • 돌연변이의 구조적 맥락 표현을 학습하여 ΔΔG 예측을 향상시킨다.
  • 학습된 표현의 항체 최적화 및 SARS-CoV-2 관련 작업에 대한 활용성을 보여준다.

제안 방법

  • SidechainDiff 도입, SE(3)-불변 구조 맥락에 조건화된 4D 토러스(T^4) 위의 사이드-체인 로타머를 위한 조건부 리만 확산 모델.
  • 앞으로의 확산을 T^4에서의 지오메트릭 랜덤 워크로 모델링하고, 점수 함수 s_theta(X,t,Z)를 MLP로 학습하며, Z는 돌연변이 맥락을 인코딩한다.
  • 조건 인코더(SE(3)-불변 IPA 네트워크)를 사용하여 per-residue 및 쌍 구조 특징으로부터 Z를 생성한다.
  • De Bortoli 등(2022)의 암시적 손실에 따른 점수 기반 확산에 따라 정제된 PDB-REDO 구조로 SidechainDiff를 학습한다.
  • DiffAffinity를 사이드체인Diff 임베딩을 사용해 ΔΔG를 예측하는 다운스트림 예측기로 정의하고, IPA 유사 트랜스포머와 MLP 헤드를 사용한다.

실험 결과

연구 질문

  • RQ1확산 기반 모델이 인터페이스에서 단백질 사이드 체인 컨포메이션의 생성 분포를 학습할 수 있는가?
  • RQ2학습된 사이드 체인 표현이 기존 방법들과 비교해 단백질-단백질 결합에 대한 돌연변이 효과 ΔΔG 예측의 정확성을 향상시키는가?
  • RQ3SidechainDiff 표현이 항체 최적화 및 SARS-CoV-2 결합 예측과 같은 다운스트림 작업에 유익한가?

주요 결과

방법돌연변이피어슨스피어만RMSEMAEAUROCAUPRC구조별 피어슨구조별 스피어만
FoldXall0.3190.4161.9591.3570.6710.8390.3760.375
FoldXsingle0.3150.3611.6511.1460.6570.8390.3820.360
FoldXmultiple0.2560.4182.6081.9260.7040.8410.3330.340
Rosettaall0.3110.3461.6171.1310.6560.8100.3280.298
Rosettasingle0.3250.3671.1830.9870.6740.8340.3510.418
Rosettamultiple0.1990.2302.6582.0240.6210.7980.1910.083
flex ddGall0.4020.4271.5871.1020.6750.8660.4140.386
flex ddGsingle0.4250.4311.4570.9970.6770.8740.4330.435
flex ddGmultiple0.3980.4191.7651.3260.6690.8540.4010.363
ESM-1vall0.1920.1571.9611.3680.5410.7350.007-0.012
ESM-1vsingle0.1910.1571.7231.1920.5490.7700.0420.027
ESM-1vmultiple0.1920.1752.7592.1190.5420.678-0.060-0.128
ESM-IFall0.3190.2811.8861.2860.5900.7680.2240.202
ESM-IFsingle0.2960.2871.6731.1370.6050.7760.3910.364
ESM-IFmultiple0.3260.3352.6451.9560.6370.7540.2020.149
ESM2all0.1330.1382.0481.4600.5470.7380.0440.039
ESM2single0.1000.1201.7301.2100.5410.7340.0190.036
ESM2multiple0.1700.1632.6582.0210.5660.7460.0100.010
ESM2*all0.6230.4981.6151.1790.7210.8870.3620.316
ESM2*single0.6250.4681.3570.9860.7070.8790.3910.342
ESM2*multiple0.6030.5292.151.670.7580.9090.3330.304
DDGPredall0.6300.4001.3130.9950.6960.8920.3560.321
DDGPredsingle0.6520.3591.3090.9360.6560.8840.3510.318
DDGPredmultiple0.5910.5032.1811.6700.7590.9130.3730.385
RDE-Netall0.6320.5271.6011.1420.7310.8870.4150.376
RDE-Netsingle0.6370.4911.3410.9610.7200.8850.4130.385
RDE-Netmultiple0.6010.5672.1571.6310.7680.8980.3900.360
DA-Linear 1all0.3260.3051.9541.3990.6420.8570.2220.222
DA-Linear 1single0.3180.2931.6491.1750.6510.8540.2090.202
DA-Linear 1multiple0.2770.2882.5931.9610.6290.8670.1930.195
DiffAffinity*all0.6460.5381.5781.1130.7420.7410.4150.392
DiffAffinity*single0.6570.5231.3120.9310.7420.7410.4170.396
DiffAffinity*multiple0.6130.5422.1331.6060.7500.7500.4070.379
DiffAffinityall0.6690.5561.5351.0930.7440.8960.4220.397
DiffAffinitysingle0.6720.5231.2880.9230.7330.8870.4290.409
DiffAffinitymultiple0.6500.6022.0511.5400.7840.9210.4140.387
  • DiffAffinity는 SKEMPI2에서 다수 지표에 대해 최첨단 성능을 달성하며, 에너지 기반, 시퀀스 기반, 비지도, 엔드투엔드 및 사전 학습 베이스라인을 능가한다.
  • 단일 및 다중 지점 돌연변이에서 DiffAffinity 및 DiffAffinity*가 베이스라인을 능가하고, SidechainDiff 표현으로 DiffAffinity가 약간 더 우수하다.
  • SARS-CoV-2 RBD 돌연변이에서 DiffAffinity는 15개 중요한 위치와 285개의 단일 포인트 돌연변이에 대해 타 방법보다 더 높은 피어슨 상관계수를 보인다.
  • DiffAffinity는 유리한 돌연변이를 순위화하여 항체 최적화를 향상시키며 상위 돌연변이 순위에서 FoldX, RDE-Net 및 DiffAffinity*를 지속적으로 능가한다.
  • SidechainDiff는 기저 대비 공간 충돌 수가 더 낮고 딥러닝 방법 대비 MAE가 유리한 것으로 사이드 체인 로타머 예측에서 경쟁력 있는 성능을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.