Skip to main content
QUICK REVIEW

[論文レビュー] Out of Many, One: Designing and Scaffolding Proteins at the Scale of the Structural Universe with Genie 2

Yeqing Lin, Minji Lee|arXiv (Cornell University)|May 24, 2024
Genetics, Bioinformatics, and Biomedical Research被引用数 11
ひとこと要約

Genie 2 は Genie を拡張し、単一モチーフおよび複数モチーフのタンパク質足場をサポート、最先端の設計可能性・多様性・新規性を達成し、モチフ条件付けと AlphaFold データによる大規模拡張によってより大きな構造空間へとスケールする。

ABSTRACT

Protein diffusion models have emerged as a promising approach for protein design. One such pioneering model is Genie, a method that asymmetrically represents protein structures during the forward and backward processes, using simple Gaussian noising for the former and expressive SE(3)-equivariant attention for the latter. In this work we introduce Genie 2, extending Genie to capture a larger and more diverse protein structure space through architectural innovations and massive data augmentation. Genie 2 adds motif scaffolding capabilities via a novel multi-motif framework that designs co-occurring motifs with unspecified inter-motif positions and orientations. This makes possible complex protein designs that engage multiple interaction partners and perform multiple functions. On both unconditional and conditional generation, Genie 2 achieves state-of-the-art performance, outperforming all known methods on key design metrics including designability, diversity, and novelty. Genie 2 also solves more motif scaffolding problems than other methods and does so with more unique and varied solutions. Taken together, these advances set a new standard for structure-based protein design. Genie 2 inference and training code, as well as model weights, are freely available at: https://github.com/aqlaboratory/genie2.

研究の動機と目的

  • モチフ間の幾何が未指定のまま、モチフ足場を有効にしてタンパク質構造の設計空間を拡張する。
  • 条件なしのタンパク質生成品質を向上させ、設計可能性・多様性・新規性を高める。
  • 単一モチーフおよび複数モチーフの足場を可能にし、複数の機能部位や相互作用パートナーを持つタンパク質を設計する。
  • AlphaFold データベースからの大規模拡張を活用して観測される構造空間を広げる。

提案手法

  • SE(3)-不変エンコーダとSE(3)-等変デコーダを用いて、バックボーン座標と参照フレーム上で動作する Genie の拡散フレームワークを使用する。
  • モチフ構造を条件付けつつモチフ間の幾何を未指定のままにできる、マルチモチフフレームワークを導入する。
  • モチフ情報を SE(3)-不変のペアワイズ距離行列とワンホット残基表現として表現し、柔軟な条件付けを可能にする。
  • 条件付きモチフ足場タスクのみで訓練し、モチフと足場の統合目的関数を介してモチフ制約を穏やかに適用する損失を用いる。
  • FoldSeekでクラスタリングされ、信頼度(pLDDT>80)と長さ ≤ 256でフィルタリングされた AlphaFold Database (AFDB) の予測値を用いて訓練データを拡張する。
  • 拡散ステップ全体で予測ノイズと真のノイズを比較するデノイジング目的関数でモデルを最適化する。
Figure 1: Genie 2 architecture (top), which extends Genie to enable scaffolding on (multiple) motifs. It consists of an SE(3)-invariant encoder that transforms input features into single residue and pair residue-residue representations, and an SE(3)-equivariant decoder that updates frames based on s
Figure 1: Genie 2 architecture (top), which extends Genie to enable scaffolding on (multiple) motifs. It consists of an SE(3)-invariant encoder that transforms input features into single residue and pair residue-residue representations, and an SE(3)-equivariant decoder that updates frames based on s

実験結果

リサーチクエスチョン

  • RQ1設計可能性・多様性・新規性の観点で、Genie 2 は条件なしのタンパク質生成において既存の拡散モデルを上回ることができるか。
  • RQ2モチフ足場の実行能力、未指定のモチフ間幾何を含むマルチモチフシナリオをどれだけ効果的に扱えるか。
  • RQ3大規模 AFDB データ拡張が生成構造の品質と多様性に与える影響は何か。
  • RQ4訓練制限を超える長いシーケンス長に対して、条件なしおよびモチフ足場タスクで Genie 2 はどのようにスケールするか。

主な発見

手法設計可能性多様性F1PDB の新規性AFDB の新規性
Chroma0.700.510.590.130.04
RFDiffusion0.960.630.760.260.14
Genie 20.960.910.0?0.410.21
  • Genie 2 は設計可能性において Chroma および RFDiffusion を上回るか同等であり、条件なし生成でははるかに高い多様性と新規性を実現する。
  • モチフ足場において競合手法を上回り、より多くのタスクを解決し、サンプルサイズが大きくなるにつれてより多くのユニークな設計を生み出す。
  • 未指定のモチフ間幾何を持つ単一モチフおよび複数モチフの足場を可能にし、複数の機能モチフを含む複雑な設計を生成する。
  • AFDB 拡張を用いた訓練は観測された構造空間を拡大し、PDB のみでの訓練と比較して性能を向上させる。
  • Genie 2 は訓練時に ≤256残基タンパク質であっても、最大 500 残基までのシーケンス長で競争力のある性能を維持する。
Figure 2: Visualizations of in-distribution performance on unconditional generation. (A) Secondary structure distributions of proteins generated by Chroma, RFDiffusion and Genie 2. For reference, we also include the secondary structure distribution of 1,000 structures randomly drawn from AFDB (far r
Figure 2: Visualizations of in-distribution performance on unconditional generation. (A) Secondary structure distributions of proteins generated by Chroma, RFDiffusion and Genie 2. For reference, we also include the secondary structure distribution of 1,000 structures randomly drawn from AFDB (far r

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。