Skip to main content
QUICK REVIEW

[論文レビュー] Diffusion on language model encodings for protein sequence generation

Viacheslav Meshchaninov, П. В. Страшнов|arXiv (Cornell University)|Mar 6, 2024
Topic Modeling被引用数 7
ひとこと要約

DiMAはタンパク質言語モデルESM-2の埋め込み上で連続拡散を用いてアミノ酸配列を生成し、品質と多様性の面で自己回帰および離散拡散のベースラインを上回り、豊富なアブレーションと生物学的関連性分析を実施している。

ABSTRACT

Protein sequence design has seen significant advances through discrete diffusion and autoregressive approaches, yet the potential of continuous diffusion remains underexplored. Here, we present DiMA, a latent diffusion framework that operates on protein language model representations. Through systematic exploration of architectural choices and diffusion components, we develop a robust methodology that generalizes across multiple protein encoders ranging from 8M to 3B parameters. We demonstrate that our framework achieves consistently high performance across sequence-only (ESM-2, ESMc), dual-decodable (CHEAP), and multimodal (SaProt) representations using the same architecture and training approach. We extensively evaluate existing methods alongside DiMA using multiple metrics across two protein modalities, covering quality, diversity, novelty, and distribution matching of generated proteins. DiMA consistently produces novel, high-quality and diverse protein sequences and achieves strong results compared to baselines such as autoregressive, discrete diffusion and flow matching language models. The model demonstrates versatile functionality, supporting conditional generation tasks including protein family-generation, motif scaffolding and infilling, and fold-specific sequence design. This work provides a universal continuous diffusion framework for protein sequence generation, offering both architectural insights and practical applicability across various protein design scenarios. Code is released at \href{https://github.com/MeshchaninovViacheslav/DiMA}{GitHub}.

研究の動機と目的

  • unconditionalなタンパク質配列生成を動機づけ、タンパク質宇宙全体の条件設計の基盤とする。
  • DiMAを提案:pLM埋め込み上で動作する拡散モデルを用いてタンパク質配列を生成。
  • 生成の品質、多様性、分布類似性、および配列と構造の生物学的関連性を評価。
  • 自己条件付けやシャープな設計選択を特定するために自己条件付け、スキップ接続、時間条件付け、ESMエンコーダ、ノイズスケジュールなどのアーキテクチャと訓練の影響を比較・アブレーションを実施。

提案手法

  • 事前学習済みのESM-2タンパク質言語モデルを用いてタンパク質配列をエンコードし潜在埋め込みを取得。
  • 潜在空間で連続的なデノイジング拡散モデルを訓練し、汚損した埋め込みを再構成。
  • 潜在埋め込みをアミノ酸配列へ戻すデコーダを使用。
  • サンプリング時に前のz0予測を再利用する自己条件付けを導入し、訓練時には勾配停止を適用。
  • 訓練で観測された経験的分布から配列長をサンプルし、デコード前に潜在ベクトルをデノormalize。

実験結果

リサーチクエスチョン

  • RQ1pLM潜在空間で拡散を行えば条件なしで高品質かつ多様なタンパク質配列を生成できるか。
  • RQ2DiMAは配列品質、多様性、分布類似性の観点から自己回帰および離散拡散ベースラインとどう比較されるか。
  • RQ3自己条件付け、スキップ、時間条件付け、ESMエンコーダ、ノイズスケジュールといった設計・訓練の選択が生成性能に与える影響は何か。
  • RQ4生成された配列は構造・機能・ドメイン注釈の観点で生物学的関連性を示すか。

主な発見

モデルpLDDT (↑)ESM-2 pppl (↓)scPerplexity (↓)TM-score (↑)BLAST (↑)FPD (↓)MMD (↓)OT (↓)
SwissProt Dataset80.75.351.880.801000.130.001.08
Random sequences25.021.542.770.3303.970.203.88
nanoGPT61.08.182.040.63431.240.032.53
EvoDiff-OADM37.115.772.440.42121.490.112.63
SeqDesign43.111.892.350.41173.530.195.12
proteinGAN30.416.482.570.3302.940.173.98
DiMA80.85.201.800.85680.410.011.41
w/o skip connections77.05.841.870.82610.480.021.51
w/o time layers79.45.491.830.85660.440.021.44
w/o ESM encoder62.79.222.090.71481.050.042.14
w/o self-conditioning68.29.182.080.74460.540.041.61
w linear schedule77.06.291.890.82580.500.021.51
w cosine schedule54.110.862.160.60340.970.062.02
AFDB Dataset83.95.791.750.921000.180.001.57
Random sequences26.221.672.750.3503.020.184.15
nanoGPT68.58.211.940.77400.620.021.99
DiMA73.98.501.900.85480.690.031.86
w/o self-conditioning56.312.082.180.69310.960.052.29
4.1 Ablation w/o self-conditioning4.1 Baseline models???????
  • DiMAはSwissProtおよびAFDBv4-90において複数の品質・多様性指標で自己回帰および離散拡散ベースラインを上回る。
  • 自己条件付けとESM-2エンコーダの使用は性能にとって最も影響力のある設計選択の1つである。
  • Simple Diffusion SD-10ノイズスケジュールはタンパク質潜在拡散において線形やコサインスケジュールよりも品質と多様性を向上させる。
  • 生成された配列は生物学的関連性を示し、高いInterProSUPERFAMILY注釈率や妥当なIDR/二次構造プロファイルを持つ。
  • DiMAは訓練データとの分布類似性をモダリティ間で維持し、SwissProtでFréchet ProtT5 Distanceおよび関連指標が良好で、AFDBv4-90では競合的な結果を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。