QUICK REVIEW

[論文レビュー] Diffusion Language Models Are Versatile Protein Learners

Xinyou Wang, Zaixiang Zheng|arXiv (Cornell University)|Feb 28, 2024

Natural Language Processing Techniques被引用数 16

ひとこと要約

DPLM は離散拡散ベースのタンパク質言語モデルで、 evolutionary-scale のシーケンスで事前学習され、新規のシーケンスを生成し、下流予測タスクの強力な表現学習者として機能し、部分シーケンス、クロスモーダル、分類器誘導生成を含む多用途な条件付けオプションを提供します。

ABSTRACT

This paper introduces diffusion protein language model (DPLM), a versatile protein language model that demonstrates strong generative and predictive capabilities for protein sequences. We first pre-train scalable DPLMs from evolutionary-scale protein sequences within a generative self-supervised discrete diffusion probabilistic framework, which generalizes language modeling for proteins in a principled way. After pre-training, DPLM exhibits the ability to generate structurally plausible, novel, and diverse protein sequences for unconditional generation. We further demonstrate the proposed diffusion generative pre-training makes DPLM possess a better understanding of proteins, making it a superior representation learner, which can be fine-tuned for various predictive tasks, comparing favorably to ESM2 (Lin et al., 2022). Moreover, DPLM can be tailored for various needs, which showcases its prowess of conditional generation in several ways: (1) conditioning on partial peptide sequences, e.g., generating scaffolds for functional motifs with high success rate; (2) incorporating other modalities as conditioner, e.g., structure-conditioned generation for inverse folding; and (3) steering sequence generation towards desired properties, e.g., satisfying specified secondary structures, through a plug-and-play classifier guidance. Code is released at \url{https://github.com/bytedance/dplm}.

研究の動機と目的

強力な生成能力と予測能力の両立を備えた、 versatile なタンパク質 LM の必要性を動機づける。
タンパク質シーケンスの生成と理解を統一するための離散拡散事前学習を提案する。
DPLM が構造的に妥当で新規なタンパク質を生成でき、下流タスクに対して優れた表現を提供することを示す。
部分シーケンス条件付け、クロスモーダル条件付け、 controllable な生成のためのプラグアンドプレイ指示のような条件付けモダリティを紹介する。

提案手法

タンパク質シーケンス上で動作する離散拡散確率的フレームワークを採用し、言語モデリングの原理的一般化として位置づける。
ノイズスケジュールの下で Cat(x^(t)|x^(t-1)) を前方拡散として定義し、マスキングを模倣する吸収状態 [X] を導入する。
バックワードのデノイズ目的を再パラメータ化し、マスクド-LM および自己回帰 LM の特別ケースに還元される（Equation 4）。
UniRef50（約45M シーケンス、約14B トークン）での事前学習を行い、モデル規模は最大 3B パラメータまで拡張する二段階戦略（マスクド LM の事前学習→拡散目的）を取る。
完全にノイズを乗せた開始からの反復的デノイズを用いた生成を可能にし、マスク-予測サンプリングに類似。
柔軟な条件付けを導入：シーケンス条件付け、アダプターを用いたクロスモーダル条件付け、離散的分類器誘導条件付けによる制御可能な生成。

実験結果

リサーチクエスチョン

RQ1離散拡散事前学習は、タンパク質シーケンスの生成と理解の両方に優れた統一モデルをもたらすか？
RQ2拡散ベースの事前学習後、下流タスクにおける DPLM の性能は ESM2 のような既存のタンパク質 LM と比較してどうか？
RQ3実用的で制御可能なタンパク質シーケンス設計を可能にする条件付けメカニズム（部分シーケンス、クロスモーダル、分類器誘導）は何か？
RQ4拡散ベースの事前学習は、長さを跨いだ構造的に妥当で新規かつ多様なタンパク質シーケンスを生み出すか？
RQ5DPLM は高品質な条件付き生成を可能にしつつ、堅牢な表現学習者として機能するか？

主な発見

DPLM は長さを問わず、構造的に妥当で新規かつ多様なタンパク質シーケンスを生成し、高い折りたたみ可能性（pLDDT スコア）を示し、モデルサイズの拡大に伴い改善する。
DPLM は下流予測タスクに対して ESM2 と比較して優れた表現を提供し、構造認識モデルに一部の設定で近づく。
より大きな DPLM モデルは無条件生成と下流タスクでより良い性能を示し、タンパク質 LM のスケーリング法則を示唆する。
DPLM はモチーフ・スキャフォルディングによる条件付き生成、クロスモーダル条件付け（例：構造条件付き生成）、および二次構造などの性質を導くプラグアンドプレイ分類器誘導を用いた条件付き生成をサポートする。
離散拡散はタンパク質シーケンス生成と表現学習において Masked-LM および AR-LM よりも効果的であることが示され、二段階のトレーニング戦略が生成品質を高める。
モチーフ・スキャフォルディング実験は、DPLM がベースラインより高い成功率とモチーフ保存性を示し、構造認識条件付けがさらなる利得を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。