[論文レビュー] Generating Novel, Designable, and Diverse Protein Structures by Equivariantly Diffusing Oriented Residue Clouds
Genie は SE(3)-等変性推論を用いて oriented residue frames 上でノイズ除去拡散確率モデルを用い、設計可能で新規かつ多様なタンパク質バックボーンを生成します。
Proteins power a vast array of functional processes in living cells. The capability to create new proteins with designed structures and functions would thus enable the engineering of cellular behavior and development of protein-based therapeutics and materials. Structure-based protein design aims to find structures that are designable (can be realized by a protein sequence), novel (have dissimilar geometry from natural proteins), and diverse (span a wide range of geometries). While advances in protein structure prediction have made it possible to predict structures of novel protein sequences, the combinatorially large space of sequences and structures limits the practicality of search-based methods. Generative models provide a compelling alternative, by implicitly learning the low-dimensional structure of complex data distributions. Here, we leverage recent advances in denoising diffusion probabilistic models and equivariant neural networks to develop Genie, a generative model of protein structures that performs discrete-time diffusion using a cloud of oriented reference frames in 3D space. Through in silico evaluations, we demonstrate that Genie generates protein backbones that are more designable, novel, and diverse than existing models. This indicates that Genie is capturing key aspects of the distribution of protein structure space and facilitates protein design with high success rates. Code for generating new proteins and training new versions of Genie is available at https://github.com/aqlaboratory/genie.
研究の動機と目的
- 進化と既知の天然タンパク質が探索したフォールドを超えるデノボタンパク質設計を促進する。
- 設計可能で新規かつ多様なタンパク質バックボーンを生成する生成モデルを開発する。
- 生成過程で幾何学的およびキラリティ制約を保持するために等変性ニューラルネットワークを活用する。
提案手法
- Cα座標に対してデカルト空間で離散時間拡散を行い、T=1000ステップでコサイン分散スケジュールを用いる。
- SE(3)-等変性デノイザーを用い、離散の Frenet-Serret フレームから構築された参照フレームのクラウド(Fフレーム)上で推論してノイズ εθ を予測する。
- SE(3)-不変エンコーダで残基をエンコードし、SE(3)-等変性デコーダで IPA と Backbone Update Network を用いてフレームを更新するデコードを行う。
- 順伝搬では残基を Cα 座標クラウドとして表現する一方、逆伝搬では角度情報とキラリティを保持するために参照フレームのクラウドとして表現する。
- Ho et al. 2020 に基づく、真のノイズと予測ノイズの L2 誤差を最小化する損失で各拡散ステップでノイズを予測することにより訓練する。
- ランダムな白色ノイズ座標 xT から開始して拡散を反転させ x0 にサンプルする。

実験結果
リサーチクエスチョン
- RQ1向き合わせた残基フレームのクラウド上で動作する DDPM は、既存モデルより設計性・新規性・多様性の高いタンパク質バックボーンを生成できるか?
- RQ2SE(3)-等変性推論は、生成構造の設計性・多様性・新規性にどのように影響するか?
- RQ3Genie の short-model (SCOPe ベース) および long-model (SwissProt ベース) の性能は、設計性・多様性・新規性の点で他の DDPM ベース手法とどう比較されるか?
主な発見
- Genie は短いタンパク質(最大 128 アミノ酸)において ProtDiff および FoldingDiff より設計性・多様性・新規性が高い。
- 自信をもって設計可能な構造の中で、Genie は競合モデルより高い pLDDT スコアとより大きなキラリティ正確性を示す。
- Genie は二次構造の内容がより多様で、他の設計構造に比べ最大 TM スコアが低く、フォールドのカバレッジが広いことを示す。
- 長いタンパク質(最大 256 アミノ酸)では、サンプリング品質で FrameDiff を上回るが RFDiffusion には及ばず、設計性と多様性の指標は競合的。
- Genie が生成した設計には、意味のある割合の新規フォールド(TM<0.5 がトレーニングセットに対して)を含み、MDS による広い設計空間の視覚化を示す。
- データセットを問わず、Genie は設計性を維持しつつ顕著な新規性と広い構造的多様性を達成し、パラメータ効率4.1Mと競争力のあるサンプリング時間を持つ。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。