Skip to main content
QUICK REVIEW

[論文レビュー] Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation

Guillaume Huguet, James Vuckovic|arXiv (Cornell University)|May 30, 2024
Monoclonal and Polyclonal Antibodies Research被引用数 6
ひとこと要約

FoldFlow-2は、シーケンス条件付けされたSE(3)-等変性フローモッチングモデルで、シーケンスに条件付けられたタンパク質バックボーンを生成します。無条件生成で最新を達成し、モチーフスキャフォールドやゼロショット平衡サンプリングを含む条件付き設計タスクを含む効果的な設計を実現します。

ABSTRACT

Proteins are essential for almost all biological processes and derive their diverse functions from complex 3D structures, which are in turn determined by their amino acid sequences. In this paper, we exploit the rich biological inductive bias of amino acid sequences and introduce FoldFlow-2, a novel sequence-conditioned SE(3)-equivariant flow matching model for protein structure generation. FoldFlow-2 presents substantial new architectural features over the previous FoldFlow family of models including a protein large language model to encode sequence, a new multi-modal fusion trunk that combines structure and sequence representations, and a geometric transformer based decoder. To increase diversity and novelty of generated samples -- crucial for de-novo drug design -- we train FoldFlow-2 at scale on a new dataset that is an order of magnitude larger than PDB datasets of prior works, containing both known proteins in PDB and high-quality synthetic structures achieved through filtering. We further demonstrate the ability to align FoldFlow-2 to arbitrary rewards, e.g. increasing secondary structures diversity, by introducing a Reinforced Finetuning (ReFT) objective. We empirically observe that FoldFlow-2 outperforms previous state-of-the-art protein structure-based generative models, improving over RFDiffusion in terms of unconditional generation across all metrics including designability, diversity, and novelty across all protein lengths, as well as exhibiting generalization on the task of equilibrium conformation sampling. Finally, we demonstrate that a fine-tuned FoldFlow-2 makes progress on challenging conditional design tasks such as designing scaffolds for the VHH nanobody.

研究の動機と目的

  • アミノ酸配列情報を活用して3Dタンパク質バックボーン生成を導く。
  • SE(3)N不変の生成モデルを開発し、構造+配列のマルチモーダルデータを扱う。
  • 多様性と設計可能性を向上させる大規模な合成+PDBデータセットで学習をスケールさせる。
  • 生成を補助報酬に沿わせるためReinforced Finetuning (ReFT)を導入する。
  • 配列に条件付けられたモチーフスキャフォールドや折りたたみなどの条件付き設計タスクを可能にする。)

提案手法

  • SE(3)N不変のフローモッチングを、別個のSO(3)とR^3フローで実現する。
  • IPAトランスフォーマーで構造を、巨大事前学習済みタンパク質言語モデル(ESM2-650M)で配列をエンコードする。
  • 幾何デコーダーの前のマルチモーダルトランキング trunkで構造と配列表現を統合する。
  • マスキング戦略で訓練する:全長配列を用いるのは50%、残りは50%マスクして無条件生成を学習。
  • 大規模なフィルタされたAlphaFold2/SwissProtデータセット(約160k構造)を構築し、段階的な品質フィルタリングを適用する。
  • 補助報酬を用いたReinforced Finetuning (ReFT)で微調整し、生成を望ましい性質へ偏らせる。

実験結果

リサーチクエスチョン

  • RQ1シーケンス条件付きのSE(3)フローモデルは、多様で設計可能なタンパク質バックボーンを生成できるか。
  • RQ2シーケンス条件付けが無条件生成の品質と多様性にどのような影響を与えるか。
  • RQ3モチーフスキャフォールド、折りたたみ、インペイントなどの条件付きタスクをモデルは実行できるか。
  • RQ4二次構造の多様性とモチーフスキャフォールド性能に対するReFTの影響はどのようか。
  • RQ5FoldFlow-2は最先端の無条件・条件付きタンパク質バックボーン生成モデルと比較してどうか。

主な発見

DesignabilityNoveltyDiversityFrac. <2A(↑)Frac. TM <0.3(↑)avg max TM(↓)pairwise TM(↓)MaxCluster(↑)
RFDiffusion0.969 ± 0.0230.116 ± 0.0200.449 ± 0.0120.2560.172--
Chroma0.636 ± 0.0300.214 ± 0.0330.412 ± 0.0110.2720.132--
Genie0.581 ± 0.0640.120 ± 0.0210.434 ± 0.0160.2280.274--
FrameDiff0.402 ± 0.0620.020 ± 0.0090.542 ± 0.0460.2370.310--
FoldFlow0.820 ± 0.0370.188 ± 0.0250.460 ± 0.0200.2470.228--
FoldFlow-20.976 ± 0.0100.368 ± 0.0310.363 ± 0.0090.2050.348--
  • FoldFlow-2は無条件生成で最先端を達成し、設計可能性、新規性、多様性の点でRFDiffusionおよびFoldFlowを上回る。
  • FoldFlow-2はESMFoldのような折りたたみモデルとの差を縮め、折りたたみに関連する指標でMultiFlowを上回る。
  • ReFTに基づく微調整は二次構造の多様性を高め、モチーフスキャフォールドなどの条件付き設計能力を改善する。
  • モチーフスキャフォールドのベンチマークでFoldFlow-2 (+FT)は24/24のモチーフを解決し、VHHスキャフォールドの結果も競合的である。
  • FoldFlow-2を用いたゼロショット平衡立位サンプリングはMDチューンモデルと競合するが、パラメータ数が少なく計算量も抑えられる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。