[論文レビュー] Variational embedding of protein folding simulations using Gaussian mixture variational autoencoders
本稿では、Gumbel-softmax再パラメータ化を用いてエンド・ツー・エンド微分可能となるガウス・ミックスチャネル・変分オートエンコーダー(GMVAE)を導入し、タンパク質折りたたみ軌道の次元削減とクラスタリングを同時に実行する手法を提案する。この手法は、明確に分離された力学的安定状態を持つ funnel 形の自由エネルギー状態を学習し、潜在空間により、TICAに基づくマルコフ状態モデルと一致する折りたたみ時間スケールを有する高精度な運動論的モデリングを可能にする。
Conformational sampling of biomolecules using molecular dynamics simulations often produces large amount of high dimensional data that makes it difficult to interpret using conventional analysis techniques. Dimensionality reduction methods are thus required to extract useful and relevant information. Here we devise a machine learning method, Gaussian mixture variational autoencoder (GMVAE) that can simultaneously perform dimensionality reduction and clustering of biomolecular conformations in an unsupervised way. We show that GMVAE can learn a reduced representation of the free energy landscape of protein folding with highly separated clusters that correspond to the metastable states during folding. Since GMVAE uses a mixture of Gaussians as the prior, it can directly acknowledge the multi-basin nature of protein folding free-energy landscape. To make the model end-to-end differentialble, we use a Gumbel-softmax distribution. We test the model on three long-timescale protein folding trajectories and show that GMVAE embedding resembles the folding funnel with folded states down the funnel and unfolded states outer in the funnel path. Additionally, we show that the latent space of GMVAE can be used for kinetic analysis and Markov state models built on this embedding produce folding and unfolding timescales that are in close agreement with other rigorous dynamical embeddings such as time independent component analysis (TICA).
研究の動機と目的
- 分子動力学シミュレーションから得られる高次元的かつ高スループットなタンパク質折りたたみ軌道を解釈する課題に対処すること。
- バイオ分子コンformationの次元削減とクラスタリングを同時に実行する教師なし機械学習手法を開発すること。
- 変分オートエンコーダーフレームワーク内でガウス・ミックスチャネルを事前分布として用いることで、タンパク質折りたたみ自由エネルギー状態のマルチ・バシン特性を捉えること。
- 運動論的情報を保持する微分可能でエンド・ツー・エンド学習可能なモデルを構築し、マルコフ状態モデリングなどの後続解析に適したものとすること。
- 長時間スケールの折りたたみシミュレーション上でモデルを検証し、既知の折りたたみ運動論的特性と構造的状態を再現できるかを示すこと。
提案手法
- 潜在空間におけるマルチモーダルなデータ分布をモデル化するため、ガウス・ミックスチャネルを事前分布とする変分オートエンコーダーを採用し、力学的安定状態のクラスタリングを可能にする。
- 離散的クラスタ割り当ての微分可能性を確保するため、Gumbel-softmax再パラメータ化を用い、確率的サンプリング層を介したエンド・ツー・エンドバックプロパゲーションを可能にする。
- 入力の正規化されたCα距離マップに対して畳み込みニューラルネットワーク層を適用し、並進不変の方法で局所的構造パターンを抽出する。
- 再構成誤差と事後分布と事前分布のKLダイバージェンスを最小化する変分目的関数により、潜在空間を学習する。
- トレーニング後、k近傍法を用いて各コンformationを周囲りのクラスタの中で最も確率の高いものに再割り当てすることで、クラスタ割り当てを精緻化する。
- GMVAE埋め込み空間上にマルコフ状態モデルを構築し、平均第一通過時間(MFPT)を計算して運動論的精度を検証する。
実験結果
リサーチクエスチョン
- RQ1GMVAEのような深層生成モデルは、タンパク質折りたたみ自由エネルギー状態の低次元的かつ解釈可能な表現を効果的に学習できるか?
- RQ2ガウス・ミックスチャネルを事前分布として用いることで、単一モードの事前分布を用いる通常のVAEと比較して、力学的安定状態のクラスタリング性能が向上するか?
- RQ3GMVAEが学習した潜在空間は、運動論的情報を保持できるか。具体的には、折りたたみ・展開の時間スケールを高精度に推定できるか?
- RQ4TICAなどの既存手法と比較して、このモデルは折りたたみファンネルおよび運動論的遷移をどれほど正確に捉えられるか?
- RQ5ハイパーパrameter(例:クラスタ数、埋め込み次元)の選択が、運動論的予測の安定性と正確性にどの程度影響を与えるか?
主な発見
- GMVAEは、折りたたまれた状態が底に局在し、折りたたまれない状態が外側に広がる funnel 形の潜在空間を学習した。これは、折りたたみファンネルモデルと整合的である。
- 潜在空間のクラスタは明確に分離された構造的状態に対応しており、折りたたまれた状態、誤って折りたたまれた状態、折りたたまれない状態を示している。折りたたまれたクラスタのRMSD分布が低く狭いことから、これを裏付けた。
- Trp-cageの折りたたみ・展開の平均第一通過時間は、それぞれ2.25 µsおよび1.54 µsであり、DE Shawグループが報告した2.8 µsに非常に近い値であった。
- 再構成誤差と交差エントロピー誤差が最小化されたのは3次元の潜在空間であり、次元を10に引き上げてもわずかな改善にとどまった。
- モデルはヘリックス-2の展開(S3 → S0)といった重要な折りたたみ遷移を的確に特定した。これは、既知の実験的およびシミュレーション研究と一致する。
- トレーニング時にラグ時間の情報を使用していなくても、GMVAE埋め込みは高精度な運動論的モデリングを可能にした。遅いプロセスについては推定された時間スケールが収束したが、より速いダイナミクス(例:Villin)の推定には、信頼性のある推定を得るためのより長いラグ時間が必要であった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。