[論文レビュー] EigenFold: Generative Protein Structure Prediction with Diffusion Models
EigenFoldは、構造を調和振動子の系としてモデル化し、固有モード連鎖拡散を用いて特定の配列のためのタンパク質構造分布をサンプルする拡散ベースの生成フレームワークを導入します。単一構造の精度を競合法と同等にし、不確実性を考慮した構造のアンサンブルを提供します。
Protein structure prediction has reached revolutionary levels of accuracy on single structures, yet distributional modeling paradigms are needed to capture the conformational ensembles and flexibility that underlie biological function. Towards this goal, we develop EigenFold, a diffusion generative modeling framework for sampling a distribution of structures from a given protein sequence. We define a diffusion process that models the structure as a system of harmonic oscillators and which naturally induces a cascading-resolution generative process along the eigenmodes of the system. On recent CAMEO targets, EigenFold achieves a median TMScore of 0.84, while providing a more comprehensive picture of model uncertainty via the ensemble of sampled structures relative to existing methods. We then assess EigenFold's ability to model and predict conformational heterogeneity for fold-switching proteins and ligand-induced conformational change. Code is available at https://github.com/bjing2016/EigenFold.
研究の動機と目的
- タンパク質の構造集合と柔軟性を捉える生成モデルの必要性を喚起する。
- タンパク質グラフ構造を尊重し、構造アンサンブルの効率的なサンプリングを可能にする調和拡散過程を開発する。
- 固有モード(正規モード)投影を活用して、推論ステップを少数に抑えた連鎖的な解像度生成を実装する。
- OmegaFold埋め込みを用いて構造生成を導く、SE(3)-等変性を満たすスコアベースモデルを統合する。
- 単一構造の精度と、構成の多様性と不確実性を捉える能力を評価する。
提案手法
- 化学的制約を符号化するため、タンパク質構造グラフ上で調和ポテンシャルを用いた前方拡散を定義する。
- 拡散を調和行列の固有モードに射影して、モードごとの収束と剛性を分析する。
- 弱いモードを先に活性化し、徐々に詳細を追加する連鎖的解像度サンプリング手順を導入する。
- テンソル積層を持つグラフニューラルネットワークを用いてSE(3)-等変性を持つスコアモデルを訓練する。
- サンプル選択のため、前向き/逆向きSDEから導出された近似ELBOを用いてサンプルをランク付けする。
実験結果
リサーチクエスチョン
- RQ1定常的な配列から現実的なタンパク質構造を拡散モデルでサンプルできるか(調和エネルギー地形上)?
- RQ2複数構造をサンプリングすることはモデルの不確実性を明らかにし、真の誤差と相関するか?
- RQ3EigenFoldは折り畳み切り替えやリガンド誘起変化におけるコンフォメーションの多様性と柔軟性をどれだけ再現できるか?
主な発見
| モデル | RMSD_Cα 平均 / 中央値 (Å) | TMScore 平均 / 中央値 | GDT-TS 平均 / 中央値 | lDDT_Cα 平均 / 中央値 |
|---|---|---|---|---|
| AlphaFold2 | 3.30 / 1.64 | 0.87 / 0.95 | 0.86 / 0.91 | 0.90 / 0.93 |
| ESMFold | 3.99 / 2.03 | 0.85 / 0.93 | 0.83 / 0.88 | 0.87 / 0.90 |
| OmegaFold | 5.26 / 2.62 | 0.80 / 0.89 | 0.77 / 0.84 | 0.83 / 0.89 |
| RoseTTAFold | 5.72 / 3.17 | 0.77 / 0.84 | 0.71 / 0.75 | 0.79 / 0.82 |
| EigenFold | 7.37 / 3.50 | 0.75 / 0.84 | 0.71 / 0.79 | 0.78 / 0.85 |
- EigenFoldは最近のCAMEOターゲットに対して単一構造予測で中央値TMScore0.84を達成した。
- サンプルされた構造のアンサンブルはモデルの不確実性への洞察を提供し、複数の指標で真の精度と相関している。
- 前方/逆方向の軌道から推定される近似ELBOは絶対的な構造精度と相関し、サンプルの内部ランク付けを可能にする。
- EigenFoldの単一構造精度はRoseTTAFoldと比較可能だが、いくつかの指標でAlphaFold2およびESMFoldには及ばない。
- 固有モード連鎖的アプローチにより、100–300の推論ステップでサンプリングを可能にする。
- EigenFoldは折り畳み切り替えおよびapo/holoデータセットで構成の多様性をモデル化でき、アンサンブル多様性と真の構成多様性の間に中程度の相関を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。