Skip to main content
QUICK REVIEW

[論文レビュー] Deep Generative Markov State Models

Hao Wu, Andreas Mardt|arXiv (Cornell University)|May 19, 2018
Protein Structure and Dynamics参考文献 27被引用数 36
ひとこと要約

この論文では、確率的符号化、メタ安定状態遷移のためのマルコフ連鎖、および生成デコーダーを組み合わせた深層学習フレームワーク、Deep Generative Markov State Models (DeepGenMSM) を提案する。これにより、長時間スケールのダイナミクスをモデル化し、物理的に現実的な分子構造を生成できる。訓練中に観測されていなかった領域でさえも、正確なキネティクス予測と有効な新しい分子構造のサンプリングが可能であり、分子動力学システムにおける外挿能力を示している。

ABSTRACT

We propose a deep generative Markov State Model (DeepGenMSM) learning framework for inference of metastable dynamical systems and prediction of trajectories. After unsupervised training on time series data, the model contains (i) a probabilistic encoder that maps from high-dimensional configuration space to a small-sized vector indicating the membership to metastable (long-lived) states, (ii) a Markov chain that governs the transitions between metastable states and facilitates analysis of the long-time dynamics, and (iii) a generative part that samples the conditional distribution of configurations in the next time step. The model can be operated in a recursive fashion to generate trajectories to predict the system evolution from a defined starting state and propose new configurations. The DeepGenMSM is demonstrated to provide accurate estimates of the long-time kinetics and generate valid distributions for molecular dynamics (MD) benchmark systems. Remarkably, we show that DeepGenMSMs are able to make long time-steps in molecular configuration space and generate physically realistic structures in regions that were not seen in training data.

研究の動機と目的

  • 長時間スケールのキネティクスを捉え、軌道予測が可能な確率的で生成的モデルを構築すること。
  • 既存のモデルにおけるギャップを埋めるために、高次元空間で物理的に妥当な構造を生成する真の生成的コンponentを組み込むこと。
  • 訓練データがメタ安定コンformationのサブセットからのみ構成されている場合でも、未観測の分子状態への外挿を可能にすること。
  • 尤度ベースの学習と確率的推論に適したベイズ適合モデルを提供すること。
  • 配置空間における大きな時間ステップを用いて、高品質で物理的に現実的な分子構造の生成が可能なことの妥当性を示すこと。

提案手法

  • 高次元構造をメタ安定状態の所属を表す低次元潜在ベクトルにマップする確率的エンコーダーとして、深層ニューラルネットワークを訓練する。
  • 潜在空間で遷移確率行列 K を持つマルコフ連鎖を学習し、長時間ダイナミクスをモデル化するとともに、確率保存を保証する。
  • P(x_{t+τ} | x_t) の条件付き分布をサンプリングする生成デコーダーネットワークを訓練し、配置空間における再帰的軌道生成を可能にする。
  • 尤度最大化による学習により、ベイズ推論に適した完全な確率的フレームワークを確保する。
  • 生成サンプルの品質を向上させるとともに、内部座標(結合長や結合角)が現実の分子動力学データと一致することを保証するため、エネルギー距離を正則化に用いる。
  • フレームワークを再帰的に適用し、長時間軌道の生成と初期状態からのシステム進化予測を実現する。

実験結果

リサーチクエスチョン

  • RQ1時間系列データから、メタ安定ダイナミクス系の正確な長時間スケールキネティクスを、深層生成モデルが学習できるか?
  • RQ2訓練データに存在しない領域であっても、高次元空間で物理的に現実的な分子構造をモデルが生成できるか?
  • RQ3特に配置空間の低頻度または未観測領域において、モデルが意味のある外挿を可能にするか?
  • RQ4生成コンponentが、実際の分子動力学データの統計的分布と一致する有効な内部座標(結合長や結合角)を生成できるか?
  • RQ5大きな時間ステップを用いても、モデルが十分に高品質な構造を生成でき、分子動力学におけるサンプリングを加速できるか?

主な発見

  • DeepGenMSMは、長時間スケールのキネティクスと定常分布を正確に推定し、遷移確率行列が真のダイナミクスをよく近似している。
  • モデルは、実際の分子動力学データと比較して、結合長や結合角の平均および標準偏差に最小限のずれを示す統計的に近い分子構造を生成している。
  • 特定のメタ安定状態に訓練データが存在しなかったにもかかわらず、モデルはその領域においても高品質で物理的に現実的な構造を効果的に生成しており、特にアラニンジペプチドの主要な状態(1–4)で顕著である。
  • 実際のMD構造と類似度が最も高い100構造は、高い構造的重なりを示しており、モデルが既知の状態を正確に再現できていることを確認している。
  • 訓練済みでない配置空間領域においても、有効な構造を生成することで、モデルが外挿能力を示しており、MDにおけるアクティブラーニングやサンプリングの加速に応用可能である可能性を示唆している。
  • 生成コンponentは、実際の内部座標を捉えた高品質な構造を生成しており、モデルが分子系の基本的物理的制約を適切に捉えていることが示されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。