Skip to main content
QUICK REVIEW

[論文レビュー] AlphaFold Meets Flow Matching for Generating Protein Ensembles

Bowen Jing, Bonnie Berger|arXiv (Cornell University)|Feb 7, 2024
Advanced Proteomics Techniques and Applications被引用数 74
ひとこと要約

論文は AlphaFold と ESMFold を flow-matching ベースの生成モデルに再利用し、現実的なタンパク質構造エンサンブルをサンプリングする。PDBとMD由来データで訓練され、MSA サブサンプリングの精度-多様性を上回り、MD様分布とエンサンブル観測を正確に捉える。

ABSTRACT

The biological functions of proteins often depend on dynamic structural ensembles. In this work, we develop a flow-based generative modeling approach for learning and sampling the conformational landscapes of proteins. We repurpose highly accurate single-state predictors such as AlphaFold and ESMFold and fine-tune them under a custom flow matching framework to obtain sequence-conditoned generative models of protein structure called AlphaFlow and ESMFlow. When trained and evaluated on the PDB, our method provides a superior combination of precision and diversity compared to AlphaFold with MSA subsampling. When further trained on ensembles from all-atom MD, our method accurately captures conformational flexibility, positional distributions, and higher-order ensemble observables for unseen proteins. Moreover, our method can diversify a static PDB structure with faster wall-clock convergence to certain equilibrium properties than replicate MD trajectories, demonstrating its potential as a proxy for expensive physics-based simulations. Code is available at https://github.com/bjing2016/alphaflow.

研究の動機と目的

  • タンパク質の構象エンサンブルの正確なサンプリングを動機づけ、実現する。構象の異質性を単一状態予測を超えて扱う。
  • 高精度な単一状態予測子(AlphaFold, ESMFold)を、flow-matching フレームワーク内のデノイジングモデルとして活用する。
  • PDB以外のエンサンブル(MDシミュレーションなど)での訓練を可能にし、動的な構形を捉える。
  • タンパク質構造生成における多様性と精度を、訓練時点で原理的に扱うアプローチを提供する。
  • 生成されたエンサンブルが高コストなMDシミュレーションの効率的な代理として機能することを示す。

提案手法

  • AlphaFold および ESMFold を、シーケンス入力に条件づけられたデノイジングモデルとして、flow-matching フレームワーク内で再利用する。
  • 調和事前分布に基づく内挿を介して R^3 座標の条件付き確率経路を定義し、Fréchet平均と FAPE 損失を用いてデータ点の条件付き期待値を学習する。
  • 構造空間を SE(3)-除法空間へ射影し、対称性と欠搽残基を扱い、商空間で RMSD 整列された線形内挿を用いる。
  • 商空間におけるFréchet平均ターゲットと整合させるため、修正損失(平方 FAPE)で訓練する。
  • PDBエンサンブルでファインチューニングして Alpha Flow および ESM Flow を実現し、次に MDエンサンブル(ATLAS)でさらにファインチューニングして Alpha Flow-MD および ESM Flow-MD を得る。
  • サンプリングを高速化し、収束を改善するテンプレートを有効にするための任意の蒸留。

実験結果

リサーチクエスチョン

  • RQ1AlphaFold/ESMFold は、シーケンスに条件付けられたタンパク質エンサンブルをサンプルするためのflow matching 下の生成デノイジングモデルとして再利用可能か?
  • RQ2PDBエンサンブルでの訓練はMDエンサンブルデータに一般化し、構造の柔軟性と高次のエンサンブル観測を捉えるか?
  • RQ3flow matching は、精度・多様性・分布精度の点で、MSAサブサンプリングや従来のMDとどう比較されるか?
  • RQ4このアプローチは、複製MDシミュレーションの効率的な代理として機能し、少ない計算資源で解決構造を多様化できるか?

主な発見

  • Alpha Flow および ESM Flow は、PDB テストタンパク質において MSA サブサンプリングよりも優れた精度-多様性パレートフロンティアを達成する。
  • Alpha Flow エンサンブルは MD由来の柔軟性指標と強い相関を示し、原子位置の平均・分散で MSA ベースラインより改善する。
  • Alpha Flow 手法は、断続的/一時的な接触や溶媒暴露パターンなどの複雑なエンサンブル観測を正確に再現する。
  • ATLAS MDエンサンブルで訓練した場合、Alpha Flow 派生は RMSF、W2距離、MI 行列などMD分布をMSAサブサンプリングよりも良く近似する。
  • 静的構造から Alpha Flow でサンプリングすると、MD軌道を再現するより平衡特性へ速く収束し、高価なシミュレーションの代理としてのポテンシャルを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。