[論文レビュー] Predicting mutational effects on protein-protein binding via a side-chain diffusion probabilistic model
SidechainDiff は、タンパク質界面のサイドチェーン構象を学習して結合のミューテーション効果(ΔΔG)を予測する拡散モデルで、SKEMPI2 および SARS-CoV-2 データセットで最先端の性能を実現。DiffAffinity は SidechainDiff 表現を活用して結合変化予測と抗体最適化を行う。
Many crucial biological processes rely on networks of protein-protein interactions. Predicting the effect of amino acid mutations on protein-protein binding is vital in protein engineering and therapeutic discovery. However, the scarcity of annotated experimental data on binding energy poses a significant challenge for developing computational approaches, particularly deep learning-based methods. In this work, we propose SidechainDiff, a representation learning-based approach that leverages unlabelled experimental protein structures. SidechainDiff utilizes a Riemannian diffusion model to learn the generative process of side-chain conformations and can also give the structural context representations of mutations on the protein-protein interface. Leveraging the learned representations, we achieve state-of-the-art performance in predicting the mutational effects on protein-protein binding. Furthermore, SidechainDiff is the first diffusion-based generative model for side-chains, distinguishing it from prior efforts that have predominantly focused on generating protein backbone structures.
研究の動機と目的
- 限られたラベル付きデータの中でタンパク質-タンパク質結合における変異効果の正確な予測を動機づける。
- 界面のタンパク質サイドチェーンの拡散ベースの生成モデルを開発する。
- 変異の構造的文脈表現を学習して ΔΔG の予測を改善する。
- 抗体最適化と SARS-CoV-2 関連タスクのための学習表現の有用性を示す。
提案手法
- SidechainDiff を導入する、4D トーラス T^4 上の条件付きリーマン拡散モデルで SE(3)不変構造文脈に条件付けられたサイドチェーン回転子。
- 前方拡散を T^4 上の幾何ランダムウォークでモデル化し、スコア関数 s_theta(X,t,Z) を MLP で学習。Z は変異文脈をエンコード。
- 各残基およびペアワイズ構造特徴から Z を生成する条件付きエンコーダ(SE(3) 不変 IPA ネットワーク)を使用。
- De Bortoli ら (2022) のスコアベース拡散の暗黙損失に従い、精緻化された PDB-REDO 構造を用いて SidechainDiff を訓練。
- DiffAffinity を下流予測子として SidechainDiff 埋め込みを用い ΔΔG を予測する、IPA風のトランスフォーマーと MLP ヘッドからなる。
実験結果
リサーチクエスチョン
- RQ1拡散ベースのモデルは界面でのタンパク質サイドチェーンの生成分布を学習できるか?
- RQ2学習されたサイドチェーン表現は、既存の方法と比較してタンパク質-タンパク質結合の変異効果予測 ΔΔG の精度を向上させるか?
- RQ3SidechainDiff 表現は抗体最適化や SARS-CoV-2 結合予測といった下流タスクに有益か?
主な発見
| 手法 | 変異 | ピアソン | スピアマン | RMSE | MAE | AUROC | AUPRC | 構造ごとのピアソン | 構造ごとのスピアマン |
|---|---|---|---|---|---|---|---|---|---|
| FoldX | all | 0.319 | 0.416 | 1.959 | 1.357 | 0.671 | 0.839 | 0.376 | 0.375 |
| FoldX | single | 0.315 | 0.361 | 1.651 | 1.146 | 0.657 | 0.839 | 0.382 | 0.360 |
| FoldX | multiple | 0.256 | 0.418 | 2.608 | 1.926 | 0.704 | 0.841 | 0.333 | 0.340 |
| Rosetta | all | 0.311 | 0.346 | 1.617 | 1.131 | 0.656 | 0.810 | 0.328 | 0.298 |
| Rosetta | single | 0.325 | 0.367 | 1.183 | 0.987 | 0.674 | 0.834 | 0.351 | 0.418 |
| Rosetta | multiple | 0.199 | 0.230 | 2.658 | 2.024 | 0.621 | 0.798 | 0.191 | 0.083 |
| flex ddG | all | 0.402 | 0.427 | 1.587 | 1.102 | 0.675 | 0.866 | 0.414 | 0.386 |
| flex ddG | single | 0.425 | 0.431 | 1.457 | 0.997 | 0.677 | 0.874 | 0.433 | 0.435 |
| flex ddG | multiple | 0.398 | 0.419 | 1.765 | 1.326 | 0.669 | 0.854 | 0.401 | 0.363 |
| ESM-1v | all | 0.192 | 0.157 | 1.961 | 1.368 | 0.541 | 0.735 | 0.007 | -0.012 |
| ESM-1v | single | 0.191 | 0.157 | 1.723 | 1.192 | 0.549 | 0.770 | 0.042 | 0.027 |
| ESM-1v | multiple | 0.192 | 0.175 | 2.759 | 2.119 | 0.542 | 0.678 | -0.060 | -0.128 |
| ESM-IF | all | 0.319 | 0.281 | 1.886 | 1.286 | 0.590 | 0.768 | 0.224 | 0.202 |
| ESM-IF | single | 0.296 | 0.287 | 1.673 | 1.137 | 0.605 | 0.776 | 0.391 | 0.364 |
| ESM-IF | multiple | 0.326 | 0.335 | 2.645 | 1.956 | 0.637 | 0.754 | 0.202 | 0.149 |
| ESM2 | all | 0.133 | 0.138 | 2.048 | 1.460 | 0.547 | 0.738 | 0.044 | 0.039 |
| ESM2 | single | 0.100 | 0.120 | 1.730 | 1.210 | 0.541 | 0.734 | 0.019 | 0.036 |
| ESM2 | multiple | 0.170 | 0.163 | 2.658 | 2.021 | 0.566 | 0.746 | 0.010 | 0.010 |
| ESM2* | all | 0.623 | 0.498 | 1.615 | 1.179 | 0.721 | 0.887 | 0.362 | 0.316 |
| ESM2* | single | 0.625 | 0.468 | 1.357 | 0.986 | 0.707 | 0.879 | 0.391 | 0.342 |
| ESM2* | multiple | 0.603 | 0.529 | 2.15 | 1.67 | 0.758 | 0.909 | 0.333 | 0.304 |
| DDGPred | all | 0.630 | 0.400 | 1.313 | 0.995 | 0.696 | 0.892 | 0.356 | 0.321 |
| DDGPred | single | 0.652 | 0.359 | 1.309 | 0.936 | 0.656 | 0.884 | 0.351 | 0.318 |
| DDGPred | multiple | 0.591 | 0.503 | 2.181 | 1.670 | 0.759 | 0.913 | 0.373 | 0.385 |
| RDE-Net | all | 0.632 | 0.527 | 1.601 | 1.142 | 0.731 | 0.887 | 0.415 | 0.376 |
| RDE-Net | single | 0.637 | 0.491 | 1.341 | 0.961 | 0.720 | 0.885 | 0.413 | 0.385 |
| RDE-Net | multiple | 0.601 | 0.567 | 2.157 | 1.631 | 0.768 | 0.898 | 0.390 | 0.360 |
| DA-Linear 1 | all | 0.326 | 0.305 | 1.954 | 1.399 | 0.642 | 0.857 | 0.222 | 0.222 |
| DA-Linear 1 | single | 0.318 | 0.293 | 1.649 | 1.175 | 0.651 | 0.854 | 0.209 | 0.202 |
| DA-Linear 1 | multiple | 0.277 | 0.288 | 2.593 | 1.961 | 0.629 | 0.867 | 0.193 | 0.195 |
| DiffAffinity* | all | 0.646 | 0.538 | 1.578 | 1.113 | 0.742 | 0.741 | 0.415 | 0.392 |
| DiffAffinity* | single | 0.657 | 0.523 | 1.312 | 0.931 | 0.742 | 0.741 | 0.417 | 0.396 |
| DiffAffinity* | multiple | 0.613 | 0.542 | 2.133 | 1.606 | 0.750 | 0.750 | 0.407 | 0.379 |
| DiffAffinity | all | 0.669 | 0.556 | 1.535 | 1.093 | 0.744 | 0.896 | 0.422 | 0.397 |
| DiffAffinity | single | 0.672 | 0.523 | 1.288 | 0.923 | 0.733 | 0.887 | 0.429 | 0.409 |
| DiffAffinity | multiple | 0.650 | 0.602 | 2.051 | 1.540 | 0.784 | 0.921 | 0.414 | 0.387 |
- DiffAffinity は SKEMPI2 で複数の指標で最先端の性能を達成し、エネルギー基準、配列基準、非教師あり、エンドツーエンド、事前学習ベースのベースラインを上回る。
- 単点・複点変異を通じて DiffAffinity および DiffAffinity* はベースラインを上回り、SidechainDiff 表現のため DiffAffinity がわずかに DiffAffinity* を上回る。
- SARS-CoV-2 RBD 変異では、15 の有意サイトと 285 の単点変異について、競合手法よりも高いピアソン相関を示した。
- DiffAffinity は抗体最適化を改善し、有利な変異をランク付けする能力を持ち、Top-mutation ランキングで FoldX、RDE-Net、DiffAffinity* を一貫して上回った。
- SidechainDiff はベースラインより低い立体衝突数で競争力のあるサイドチェーンロタマー予測を示し、深層学習法と比較して MAE も有利だった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。