Skip to main content
QUICK REVIEW

[論文レビュー] Predicting mutational effects on protein-protein binding via a side-chain diffusion probabilistic model

Shiwei Liu, Zhu Tian|arXiv (Cornell University)|Oct 30, 2023
Protein Structure and Dynamics被引用数 10
ひとこと要約

SidechainDiff は、タンパク質界面のサイドチェーン構象を学習して結合のミューテーション効果(ΔΔG)を予測する拡散モデルで、SKEMPI2 および SARS-CoV-2 データセットで最先端の性能を実現。DiffAffinity は SidechainDiff 表現を活用して結合変化予測と抗体最適化を行う。

ABSTRACT

Many crucial biological processes rely on networks of protein-protein interactions. Predicting the effect of amino acid mutations on protein-protein binding is vital in protein engineering and therapeutic discovery. However, the scarcity of annotated experimental data on binding energy poses a significant challenge for developing computational approaches, particularly deep learning-based methods. In this work, we propose SidechainDiff, a representation learning-based approach that leverages unlabelled experimental protein structures. SidechainDiff utilizes a Riemannian diffusion model to learn the generative process of side-chain conformations and can also give the structural context representations of mutations on the protein-protein interface. Leveraging the learned representations, we achieve state-of-the-art performance in predicting the mutational effects on protein-protein binding. Furthermore, SidechainDiff is the first diffusion-based generative model for side-chains, distinguishing it from prior efforts that have predominantly focused on generating protein backbone structures.

研究の動機と目的

  • 限られたラベル付きデータの中でタンパク質-タンパク質結合における変異効果の正確な予測を動機づける。
  • 界面のタンパク質サイドチェーンの拡散ベースの生成モデルを開発する。
  • 変異の構造的文脈表現を学習して ΔΔG の予測を改善する。
  • 抗体最適化と SARS-CoV-2 関連タスクのための学習表現の有用性を示す。

提案手法

  • SidechainDiff を導入する、4D トーラス T^4 上の条件付きリーマン拡散モデルで SE(3)不変構造文脈に条件付けられたサイドチェーン回転子。
  • 前方拡散を T^4 上の幾何ランダムウォークでモデル化し、スコア関数 s_theta(X,t,Z) を MLP で学習。Z は変異文脈をエンコード。
  • 各残基およびペアワイズ構造特徴から Z を生成する条件付きエンコーダ(SE(3) 不変 IPA ネットワーク)を使用。
  • De Bortoli ら (2022) のスコアベース拡散の暗黙損失に従い、精緻化された PDB-REDO 構造を用いて SidechainDiff を訓練。
  • DiffAffinity を下流予測子として SidechainDiff 埋め込みを用い ΔΔG を予測する、IPA風のトランスフォーマーと MLP ヘッドからなる。

実験結果

リサーチクエスチョン

  • RQ1拡散ベースのモデルは界面でのタンパク質サイドチェーンの生成分布を学習できるか?
  • RQ2学習されたサイドチェーン表現は、既存の方法と比較してタンパク質-タンパク質結合の変異効果予測 ΔΔG の精度を向上させるか?
  • RQ3SidechainDiff 表現は抗体最適化や SARS-CoV-2 結合予測といった下流タスクに有益か?

主な発見

手法変異ピアソンスピアマンRMSEMAEAUROCAUPRC構造ごとのピアソン構造ごとのスピアマン
FoldXall0.3190.4161.9591.3570.6710.8390.3760.375
FoldXsingle0.3150.3611.6511.1460.6570.8390.3820.360
FoldXmultiple0.2560.4182.6081.9260.7040.8410.3330.340
Rosettaall0.3110.3461.6171.1310.6560.8100.3280.298
Rosettasingle0.3250.3671.1830.9870.6740.8340.3510.418
Rosettamultiple0.1990.2302.6582.0240.6210.7980.1910.083
flex ddGall0.4020.4271.5871.1020.6750.8660.4140.386
flex ddGsingle0.4250.4311.4570.9970.6770.8740.4330.435
flex ddGmultiple0.3980.4191.7651.3260.6690.8540.4010.363
ESM-1vall0.1920.1571.9611.3680.5410.7350.007-0.012
ESM-1vsingle0.1910.1571.7231.1920.5490.7700.0420.027
ESM-1vmultiple0.1920.1752.7592.1190.5420.678-0.060-0.128
ESM-IFall0.3190.2811.8861.2860.5900.7680.2240.202
ESM-IFsingle0.2960.2871.6731.1370.6050.7760.3910.364
ESM-IFmultiple0.3260.3352.6451.9560.6370.7540.2020.149
ESM2all0.1330.1382.0481.4600.5470.7380.0440.039
ESM2single0.1000.1201.7301.2100.5410.7340.0190.036
ESM2multiple0.1700.1632.6582.0210.5660.7460.0100.010
ESM2*all0.6230.4981.6151.1790.7210.8870.3620.316
ESM2*single0.6250.4681.3570.9860.7070.8790.3910.342
ESM2*multiple0.6030.5292.151.670.7580.9090.3330.304
DDGPredall0.6300.4001.3130.9950.6960.8920.3560.321
DDGPredsingle0.6520.3591.3090.9360.6560.8840.3510.318
DDGPredmultiple0.5910.5032.1811.6700.7590.9130.3730.385
RDE-Netall0.6320.5271.6011.1420.7310.8870.4150.376
RDE-Netsingle0.6370.4911.3410.9610.7200.8850.4130.385
RDE-Netmultiple0.6010.5672.1571.6310.7680.8980.3900.360
DA-Linear 1all0.3260.3051.9541.3990.6420.8570.2220.222
DA-Linear 1single0.3180.2931.6491.1750.6510.8540.2090.202
DA-Linear 1multiple0.2770.2882.5931.9610.6290.8670.1930.195
DiffAffinity*all0.6460.5381.5781.1130.7420.7410.4150.392
DiffAffinity*single0.6570.5231.3120.9310.7420.7410.4170.396
DiffAffinity*multiple0.6130.5422.1331.6060.7500.7500.4070.379
DiffAffinityall0.6690.5561.5351.0930.7440.8960.4220.397
DiffAffinitysingle0.6720.5231.2880.9230.7330.8870.4290.409
DiffAffinitymultiple0.6500.6022.0511.5400.7840.9210.4140.387
  • DiffAffinity は SKEMPI2 で複数の指標で最先端の性能を達成し、エネルギー基準、配列基準、非教師あり、エンドツーエンド、事前学習ベースのベースラインを上回る。
  • 単点・複点変異を通じて DiffAffinity および DiffAffinity* はベースラインを上回り、SidechainDiff 表現のため DiffAffinity がわずかに DiffAffinity* を上回る。
  • SARS-CoV-2 RBD 変異では、15 の有意サイトと 285 の単点変異について、競合手法よりも高いピアソン相関を示した。
  • DiffAffinity は抗体最適化を改善し、有利な変異をランク付けする能力を持ち、Top-mutation ランキングで FoldX、RDE-Net、DiffAffinity* を一貫して上回った。
  • SidechainDiff はベースラインより低い立体衝突数で競争力のあるサイドチェーンロタマー予測を示し、深層学習法と比較して MAE も有利だった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。