[論文レビュー] Protein Conformation Generation via Force-Guided SE(3) Diffusion Models
ConfDiff は SE(3) 拡散をシーケンス条件付きガイダンスと力ベースの中間項によって実現し、多様で高忠実なタンパク質構造をボルツマン分布に整合させながら生成する。fast-folding タンパク質と BPTI に対して、最先端のベースラインを上回る。
The conformational landscape of proteins is crucial to understanding their functionality in complex biological processes. Traditional physics-based computational methods, such as molecular dynamics (MD) simulations, suffer from rare event sampling and long equilibration time problems, hindering their applications in general protein systems. Recently, deep generative modeling techniques, especially diffusion models, have been employed to generate novel protein conformations. However, existing score-based diffusion methods cannot properly incorporate important physical prior knowledge to guide the generation process, causing large deviations in the sampled protein conformations from the equilibrium distribution. In this paper, to overcome these limitations, we propose a force-guided SE(3) diffusion model, ConfDiff, for protein conformation generation. By incorporating a force-guided network with a mixture of data-based score models, ConfDiff can generate protein conformations with rich diversity while preserving high fidelity. Experiments on a variety of protein conformation prediction tasks, including 12 fast-folding proteins and the Bovine Pancreatic Trypsin Inhibitor (BPTI), demonstrate that our method surpasses the state-of-the-art method.
研究の動機と目的
- 従来の MD および単一構造予測を超えたタンパク質構 configurational landscapes の効率的サンプリングの必要性を動機づける。
- MD エネルギーからの物理 priors を尊重する拡散ベースの生成フレームワークを開発し、低エネルギー構造をサンプリングする。
- シーケンス条件付きガイダンスと力ベースの中間ガイダンスを活用して、構造の品質と多様性のバランスを取る。
- 高速フォールディングタンパク質と BPTI で、忠実度とボルツマン整合的サンプリングの改善を示す。
提案手法
- タンパク質のバックボーンを各残基ごとに SE(3) フレームとして表現し、平行移動と回転に対して個別の SE(3) ダイナミクスで拡散を実行する。
- ベースラインの無条件スコアモデルとシーケンス条件付きスコアモデルを訓練し、サンプリング時に分類子なしガイダンスでそれらを結合する。
- 中間拡散エネルギー関数 E_t を用いたエネルギーガイダンスを導入し、CEP 風 loss によって近似するネットワークを訓練する。
- 中間力ガイダンスネットワークを開発し、中間力 E_t' を近似して逆時サンプリングに注入し、低エネルギー状態へ偏りを導く。
- 変換部の翻訳成分のみに力ガイダンスを推論し、訓練を安定化させ境界条件を満たす補間形 h_ψ(x_t,t) を用いる。
- 注: 訓練には DSM loss を使用。エネルギー/力ネットワークはベーススコアモデルとは別に訓練される。
実験結果
リサーチクエスチョン
- RQ1SE(3) における力・エネルギーガイダンス拡散は、多様性とボルツマン分布への忠実性を両立させたタンパク質構造を生み出せるか。
- RQ2分類子なし条件付けが、構造の多様性と忠実度のバランスにどう影響するか。
- RQ3中間エネルギーおよび中間力ガイダンスは、データ駆動のみの拡散ベースラインと比較してサンプリング品質を改善するか。
- RQ4提案される ConfDiff 変種は、標準的なタンパク質構造ベンチマークにおける最先端拡散モデルと比較してどうか。
主な発見
| モデル | JS 距離(下) | Val-CA(上) | RMSE 接触(下) | RMSF | PwD(Å) | Rg(Å) | TIC | TIC-2D |
|---|---|---|---|---|---|---|---|---|
| EigenFold | 0.53/0.56 | 0.52/0.55 | 0.50/0.50 | 0.64/0.66 | 0.15/0.08 | 6.18/6.22 | 1.6/1.1 | |
| Str2Str-SDE | 0.34/0.32 | 0.30/0.24 | 0.39/0.38 | 0.56/0.58 | 0.97/0.98 | 3.68/4.01 | 7.8/8.0 | |
| Str2Str-ODE | 0.37/0.38 | 0.33/0.30 | 0.40/0.39 | 0.57/0.59 | 0.96/0.97 | 4.14/4.36 | 6.4/6.3 | |
| ConfDiff-Base | 0.29/0.27 | 0.25/0.22 | 0.36/0.37 | 0.52/0.52 | 0.89/0.91 | 3.61/3.57 | 6.1/5.9 | |
| ConfDiff-Energy | 0.34/0.34 | 0.31/0.29 | 0.39/0.40 | 0.54/0.56 | 0.97/0.97 | 3.65/3.80 | 7.1/6.1 | |
| ConfDiff-Force | 0.29/0.27 | 0.26/0.24 | 0.38/0.38 | 0.54/0.54 | 0.97/0.98 | 3.25/3.38 | 6.2/5.7 |
- 力ガイダンスを用いた ConfDiff は、ベースラインと比較して競争力のあるまたは改善された指標を達成し、エネルギーを低減しつつ多様性を維持する。
- 高速フォールディングタンパク質では、ConfDiff-Force および ConfDiff-Base が EigenFold および Str2Str 変種と比較して JS 距離が低いまたは同等で、Val-CA 精度が高い。
- エネルギーガイダンスと力ガイダンスの両方が、低エネルギー構造へとサンプルを誘導し、ボルツマン整合性の高いサンプリングを強化する。
- 分類子なしガイダンスは、サンプル品質と多様性の間の調整可能なトレードオフを提供し、生成されるアンサンブルの制御性を高める。
- ベンチマーク全体(BPTI を含む)では、力ベースのアプローチが構造的妥当性と MD由来のアンサンブルへの分布的類似性を改善することを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。