Skip to main content
QUICK REVIEW

[論文レビュー] Two for One: Diffusion Models and Force Fields for Coarse-Grained Molecular Dynamics

Marloes Arts, Victor García Satorras|arXiv (Cornell University)|Feb 1, 2023
Protein Structure and Dynamics被引用数 10
ひとこと要約

この論文は粗粒度(coarse-grained: CG)構造上でデノイジング拡散モデルを学習し、i.i.d. CGサンプルとMD用の保守的なCG力場の両方を得ることで、正確な平衡分布と保存されたダイナミクスを実現する。

ABSTRACT

Coarse-grained (CG) molecular dynamics enables the study of biological processes at temporal and spatial scales that would be intractable at an atomistic resolution. However, accurately learning a CG force field remains a challenge. In this work, we leverage connections between score-based generative models, force fields and molecular dynamics to learn a CG force field without requiring any force inputs during training. Specifically, we train a diffusion generative model on protein structures from molecular dynamics simulations, and we show that its score function approximates a force field that can directly be used to simulate CG molecular dynamics. While having a vastly simplified training setup compared to previous work, we demonstrate that our approach leads to improved performance across several small- to medium-sized protein simulations, reproducing the CG equilibrium distribution, and preserving dynamics of all-atom simulations such as protein folding events.

研究の動機と目的

  • 熱力学的に整合したCG力場を、トレーニング時に原子レベルの力に依存しない形で学習する動機付け。
  • スコアベースの拡散モデルがCGポテンシャルの平均力を近似し、CGMDで直接使用できることを示す。
  • これをより大きなタンパク質へスケーラブルに適用し、CGシミュレーションにおける全原子様のダイナミクスを保存する。
  • i.i.d. CGサンプル生成と決定論的CG力場の両方を可能にする、単一ステージのシンプルなトレーニング手法を提供する。

提案手法

  • CGボルツ曼分布から抽出されたCGサンプル上でデノイジング拡散確率モデル(DDPM)を訓練する。
  • DDPMの損失をデノイジングスコアマッチングへ関連付け、CG力に近似するスコア関数を抽出する。
  • 拡散モデルのノイズ予測器をエネルギー関数の勾配としてパラメータ化し、保守的で並進不変、回転同変(SO(3)同変性はデータ拡張で実現)な力場を確保する。
  • 抽出したデノイジング力場をCGラグランジュ動力学に用いてCG分子動力学をシミュレートする。
  • MD中の力場の精度と計算安定性のバランスを取るため、拡散ステップiを選択可能とする。

実験結果

リサーチクエスチョン

  • RQ1CG平衡サンプル上で訓練された拡散モデルは、MDシミュレーションに適した保守的なCG力場を学習できるのか。
  • RQ2このアプローチはCGの平衡分布を再現し、全原子シミュレーションに匹敵するダイナミクスを保存できるのか。
  • RQ3本手法はFlowベース手法を越える規模のCGタンパク質にも適用可能か。
  • RQ4学習された力場はエネルギー事前情報や教師-生徒蒸留を必要とせず、安定したCGMDを提供できるのか。
  • RQ5i.i.d.サンプル生成とMDベースのシミュレーションの両方のモードで、手法はどのように機能するのか。

主な発見

MethodChignolin TIC JSChignolin PWD JSTrp-cage TIC JSTrp-cage PWD JSBba TIC JSBba PWD JSVillin TIC JSVillin PWD JSProtein G TIC JSProtein G PWD JS
Reference.0057.0002.0026.0002.0040.0002.0032.0004.0014.0002
Flow i.i.d. .0106.0022.0078.0057.0229.0073.0109.0142n/an/a
DFF sim. .0096.0005.0052.0007.0111.0017.0073.0009.0131.0009
Flow-CGNet sim. .1875.1271.1009.0474.1469.0594.2153.0535n/an/a
DFF sim. .0335.0067.0518.0403.1289.0408.0564.0244.2260.0691
  • DFFアプローチは、ジヒドラー和と対を測定したCGの平衡分布の再現性で、Flowベースのベースラインを上回る。
  • DFF sim.はFlow-CGNet sim.より動的挙動の精度( TICベースの準安定状態による遷移確率)が高く、DFF i.i.d.はサンプリング品質でFlow i.i.d.に近い。
  • 拡散モデルは、Flowベースの方法よりグローバル構造と長距離接触をより正確に捉え、Protein G(56ビーズ)といった大きなタンパク質にも適用可能。
  • 学習済みのDFFは保守的、並進不変、回転同変な力場であり、明示的なエネルギー事前情報を必要とせず安定したCGMDに適している。
  • このフレームワークは高速フォールディングタンパク質へ拡張可能で、折り畳み・解折り、準安定状態の占有などの主要な動力学的特徴を保持しつつ、 TICベースの評価指標が有利である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。