[論文レビュー] SE(3)-Stochastic Flow Matching for Protein Backbone Generation
FoldFlowはSE(3)–不変正規化フローを用いたタンパク質骨格生成を導入し、ソース分布とターゲット分布をSE(3)^N上でマッピングするベース、OT、確率的フローミングを用いて、高速で安定した学習と高品質な設計を実現します。
The computational design of novel protein structures has the potential to impact numerous scientific disciplines greatly. Toward this goal, we introduce FoldFlow, a series of novel generative models of increasing modeling power based on the flow-matching paradigm over $3\mathrm{D}$ rigid motions -- i.e. the group $ ext{SE}(3)$ -- enabling accurate modeling of protein backbones. We first introduce FoldFlow-Base, a simulation-free approach to learning deterministic continuous-time dynamics and matching invariant target distributions on $ ext{SE}(3)$. We next accelerate training by incorporating Riemannian optimal transport to create FoldFlow-OT, leading to the construction of both more simple and stable flows. Finally, we design FoldFlow-SFM, coupling both Riemannian OT and simulation-free training to learn stochastic continuous-time dynamics over $ ext{SE}(3)$. Our family of FoldFlow, generative models offers several key advantages over previous approaches to the generative modeling of proteins: they are more stable and faster to train than diffusion-based approaches, and our models enjoy the ability to map any invariant source distribution to any invariant target distribution over $ ext{SE}(3)$. Empirically, we validate FoldFlow, on protein backbone generation of up to $300$ amino acids leading to high-quality designable, diverse, and novel samples.
研究の動機と目的
- タンパク質設計をSE(3)^N分布からのサンプリングとして動機づけ、 invariantな生成を可能にする。
- SE(3)上のシミュレーション不要なフローモデルを開発し、任意の不変源をターゲット分布へ写像する。
- リーマンOTと確率的ブリッジを用いて学習の安定性と速度を向上させる。
- バックボーン生成のエンドツーエンドFoldFlowアーキテクチャをニューラルバックボーンと共に提供する。
- 最先端手法と比較して最大300残基のバックボーン上で実証的に検証する。
提案手法
- FoldFlow-Baseを開発:訓練のための閉形式の対数写像を持つSO(3)上のシミュレーション不要な条件付きフローマッチング。
- FoldFlow-OTへ拡張:リーマンOTを組み込んでより短く直線的な測地線補間を得る。
- FoldFlow-SFMを導入:SO(3)上のブラウン運動橋のシミュレーション不要な近似を用いて確率的SE(3)フローを学習。
- SE(3)^NをSO(3)とR^3成分に分解し、SE(3)不変性を持つ各残基フローを訓練。
- 各残基ごとにAF2風のフレームを用いてタンパク質バックボーンをパラメトリ化し、x_tからx_0へ押し戻す速度予測子v_thetaを訓練。
- SO(3)とR^3上のフローマッチング損失を、原子レベルの補助損失と組み合わせて頑健なバックボーン設計を実現。
実験結果
リサーチクエスチョン
- RQ1SE(3)^N不変フローはタンパク質バックボーンの任意のソース分布とターゲット分布の間を写像できるか。
- RQ2リーマン OT ベースおよび確率フロー変種はベースフローより学習の安定性と設計品質を向上させるか。
- RQ3FoldFlowの変種は設計性・多様性・新規性において、事前学習なしの最先端法と比較してどうか。
- RQ4SE(3)バックボーンに確率的ブリッジを組み込んでも、シミュレーション不要の訓練目的は十分か。
- RQ5FoldFlow-Base、FoldFlow-OT、FoldFlow-SFMの間で、精度と速度の計算上のトレードオフはどのようになるか。
主な発見
- FoldFlow-OTとFoldFlow-SFMは、合成SO(3)データに対してFoldFlow-Baseよりも小さいワッサースタイン距離を達成。
- すべてのFoldFlow変種は、非事前学習のFrameDiff-ImprovedベースラインをPDBバックボーン設計タスクで設計性・多様性・新規性の点で上回る。
- FoldFlow-SFMはシミュレーション不要な訓練フレームワークを提供し、勾配の等価性によって無条件損失と同等の性質を持つ確率的SE(3)フローで検証。
- FoldFlow-OTはOTベースの補間によりより安定で高速な訓練を実現。
- 最大300残基のバックボーン設計において、FoldFlow変種は高品質で設計可能性・多様性・新規性のあるサンプルを生み出す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。