QUICK REVIEW

[論文レビュー] Two for One: Diffusion Models and Force Fields for Coarse-Grained Molecular Dynamics

Marloes Arts, Victor García Satorras|arXiv (Cornell University)|Feb 1, 2023

Protein Structure and Dynamics被引用数 10

ひとこと要約

この論文は粗粒度（coarse-grained: CG）構造上でデノイジング拡散モデルを学習し、i.i.d. CGサンプルとMD用の保守的なCG力場の両方を得ることで、正確な平衡分布と保存されたダイナミクスを実現する。

ABSTRACT

Coarse-grained (CG) molecular dynamics enables the study of biological processes at temporal and spatial scales that would be intractable at an atomistic resolution. However, accurately learning a CG force field remains a challenge. In this work, we leverage connections between score-based generative models, force fields and molecular dynamics to learn a CG force field without requiring any force inputs during training. Specifically, we train a diffusion generative model on protein structures from molecular dynamics simulations, and we show that its score function approximates a force field that can directly be used to simulate CG molecular dynamics. While having a vastly simplified training setup compared to previous work, we demonstrate that our approach leads to improved performance across several small- to medium-sized protein simulations, reproducing the CG equilibrium distribution, and preserving dynamics of all-atom simulations such as protein folding events.

研究の動機と目的

熱力学的に整合したCG力場を、トレーニング時に原子レベルの力に依存しない形で学習する動機付け。
スコアベースの拡散モデルがCGポテンシャルの平均力を近似し、CGMDで直接使用できることを示す。
これをより大きなタンパク質へスケーラブルに適用し、CGシミュレーションにおける全原子様のダイナミクスを保存する。
i.i.d. CGサンプル生成と決定論的CG力場の両方を可能にする、単一ステージのシンプルなトレーニング手法を提供する。

提案手法

CGボルツ曼分布から抽出されたCGサンプル上でデノイジング拡散確率モデル（DDPM）を訓練する。
DDPMの損失をデノイジングスコアマッチングへ関連付け、CG力に近似するスコア関数を抽出する。
拡散モデルのノイズ予測器をエネルギー関数の勾配としてパラメータ化し、保守的で並進不変、回転同変（SO(3)同変性はデータ拡張で実現）な力場を確保する。
抽出したデノイジング力場をCGラグランジュ動力学に用いてCG分子動力学をシミュレートする。
MD中の力場の精度と計算安定性のバランスを取るため、拡散ステップiを選択可能とする。

実験結果

リサーチクエスチョン

RQ1CG平衡サンプル上で訓練された拡散モデルは、MDシミュレーションに適した保守的なCG力場を学習できるのか。
RQ2このアプローチはCGの平衡分布を再現し、全原子シミュレーションに匹敵するダイナミクスを保存できるのか。
RQ3本手法はFlowベース手法を越える規模のCGタンパク質にも適用可能か。
RQ4学習された力場はエネルギー事前情報や教師-生徒蒸留を必要とせず、安定したCGMDを提供できるのか。
RQ5i.i.d.サンプル生成とMDベースのシミュレーションの両方のモードで、手法はどのように機能するのか。

主な発見

Method	Chignolin TIC JS	Chignolin PWD JS	Trp-cage TIC JS	Trp-cage PWD JS	Bba TIC JS	Bba PWD JS	Villin TIC JS	Villin PWD JS	Protein G TIC JS	Protein G PWD JS
Reference	.0057	.0002	.0026	.0002	.0040	.0002	.0032	.0004	.0014	.0002
Flow i.i.d.	.0106	.0022	.0078	.0057	.0229	.0073	.0109	.0142	n/a	n/a
DFF sim.	.0096	.0005	.0052	.0007	.0111	.0017	.0073	.0009	.0131	.0009
Flow-CGNet sim.	.1875	.1271	.1009	.0474	.1469	.0594	.2153	.0535	n/a	n/a
DFF sim.	.0335	.0067	.0518	.0403	.1289	.0408	.0564	.0244	.2260	.0691

DFFアプローチは、ジヒドラー和と対を測定したCGの平衡分布の再現性で、Flowベースのベースラインを上回る。
DFF sim.はFlow-CGNet sim.より動的挙動の精度（ TICベースの準安定状態による遷移確率）が高く、DFF i.i.d.はサンプリング品質でFlow i.i.d.に近い。
拡散モデルは、Flowベースの方法よりグローバル構造と長距離接触をより正確に捉え、Protein G（56ビーズ）といった大きなタンパク質にも適用可能。
学習済みのDFFは保守的、並進不変、回転同変な力場であり、明示的なエネルギー事前情報を必要とせず安定したCGMDに適している。
このフレームワークは高速フォールディングタンパク質へ拡張可能で、折り畳み・解折り、準安定状態の占有などの主要な動力学的特徴を保持しつつ、 TICベースの評価指標が有利である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。