QUICK REVIEW

[論文レビュー] PoET: A generative model of protein families as sequences-of-sequences

Tristan Bepler, Timothy F. Truong|arXiv (Cornell University)|Jun 9, 2023

Genomics and Phylogenetic Studies被引用数 26

ひとこと要約

PoETは全タンパク質ファミリーをシーケンス-オブ-シーケンスとしてモデル化する自己回帰型Transformerであり、検索による条件付け、挿入/削除を考慮した生成、MSAに依存せずに多数のタンパク質ファミリーに対する変異体適応度予測を改善することを可能にする。

ABSTRACT

Generative protein language models are a natural way to design new proteins with desired functions. However, current models are either difficult to direct to produce a protein from a specific family of interest, or must be trained on a large multiple sequence alignment (MSA) from the specific family of interest, making them unable to benefit from transfer learning across families. To address this, we propose $ extbf{P}$r$ extbf{o}$tein $ extbf{E}$volutionary $ extbf{T}$ransformer (PoET), an autoregressive generative model of whole protein families that learns to generate sets of related proteins as sequences-of-sequences across tens of millions of natural protein sequence clusters. PoET can be used as a retrieval-augmented language model to generate and score arbitrary modifications conditioned on any protein family of interest, and can extrapolate from short context lengths to generalize well even for small families. This is enabled by a unique Transformer layer; we model tokens sequentially within sequences while attending between sequences order invariantly, allowing PoET to scale to context lengths beyond those used during training. In extensive experiments on deep mutational scanning datasets, we show that PoET outperforms existing protein language models and evolutionary sequence models for variant function prediction across proteins of all MSA depths. We also demonstrate PoET's ability to controllably generate new protein sequences.

研究の動機と目的

MSAに依存せず、多くのファミリーに跨る進化的制約をモデル化することでタンパク質設計の改善を動機づける。
シーケンス-オブ-シーケンスとして関連タンパク質の集合を生成する、スケーラブルで順序不変なTransformersアーキテクチャを開発する。
検索拡張条件付けと、インデルを含むシーケンス変異体の効率的なスコアリング/生成を可能にする。
Deep mutational scanningデータセット全体で変異体適応度予測の改善を示し、新規で構造的にあり得るシーケンスを生成する能力を示す。

提案手法

PoETを導入する。これはシーケンス-オブ-シーケンス分布 P(X=x) = シーケンスとトークンの積に対する自己回帰モデルである。
二つのアテンションモジュールを持つTieredTransformerDecoderLayerを提案する：PerSequenceSelfAttn(シーケンス内)とSequenceOfSequencesSelfAttn(シーケンス間)で、シーケンス間の順序不変性とシーケンス内の順序依存性を実現する。
シーケンス内アテンションにはRotary Positional Encodingsを用い、シーケンス間の相対的位置エンコーディングという新規手法で、シーケンス間の順序不変性を保証しつつ、シーケンス内の構造を保持する。
UniRef50由来の同源配列を29百万セットで学習し、セットサイズを均衡化するために逆カウント重み付けを用い、無作為化された配列順序で不変性を促進する。
取得した同源配列Sを条件として適合度スコアを条件付け計算し、検索拡張生成とスコアリングを可能にする（例：PoETの適合度予測は log P(v|S) を用いる）。
ProteinGymのDeep Mutational Scanningデータセットで評価し、アラインメントベース、無条件、条件付き、ハイブリッドなタンパク質言語モデルと比較する。アンサンブルが性能を向上させることを示す。

実験結果

リサーチクエスチョン

RQ1PoETは数百万のタンパク質配列クラスターに跨る進化的制約を一般化して、小規模なファミリーでも大規模なファミリーでも変異体適応度予測を改善できるか。
RQ2シーケンス-オブ-シーケンスTransformersが、順序不変なシーケンス間アテンションを持つ場合、MSベースまたは無条件モデルよりも変異効果予測とインデル処理で優れているか。
RQ3PoETはMSAを必要とせず、ターゲットファミリーを条件としてタンパク質配列を生成・評価する検索拡張言語モデルとして使えるか。
RQ4PoETはファミリー特有の特徴を保持しつつ、新規で構造的にもっとも plausibleなシーケンスを生成する性能はどうか。

主な発見

モデルタイプ	モデル名	# パラメータ	低	中	高	全体	インデル
Alignment-based	Site independent	N/A	0.417	0.404	0.411	0.408	N/A
GEMME	N/A	N/A	0.445	0.449	0.522	0.463	N/A
EVE (ensemble)	N/A	N/A	0.414	0.441	0.498	0.448	N/A
Unconditional PLM	ESM-1v (ensemble)	3.25B	0.356	0.372	0.510	0.398	N/A
ProGen2 (ensemble)	10.8B	0.357	0.416	0.448	0.411	0.407
Tranception L (no retrieval)	700M	0.377	0.399	0.429	0.401	0.430
Conditional MSA Transformer (ens.)	100M	0.372	0.421	0.477	0.423	N/A
PoET (ensemble)	201M	0.476	0.466	0.542	0.484	0.510
Hybrid Tranception L	700M	0.441	0.437	0.472	0.445	0.464
TranceptEVE M	300M	-	-	-	-	0.516
TranceptEVE L	700M	0.454	0.463	0.508	0.471	0.466
PoET (ensemble) + TranceptEVE L	901M	0.479	0.480	0.537	0.492	0.521

PoETはProteinGymデータセット全体で変異体適応度予測において最先端または競争力のある性能を達成し、すべてのMSA深度における置換予測を改善する。
PoETとTranceptEVE Lのアンサンブルは、いずれの方法単独よりも置換予測を大幅に改善する。
PoETはインデル変異の予測でベースラインを上回り、トレーニングMSAに存在しないインデルを含む配列をスコアリング・生成できる。
より長いコンテクスト長（数千トークンまで）はPoETにより多くの同源配列を観察させ、性能を向上させる。PoETはトレーニング時のコンテクスト長を大きく超えて一般化する。
PoETは構造的妥当性を保持しつつ多様で新規なシーケンスを生成できる（高いpLDDT、TM-scoreがネイティブ様な折りたたみへとクラスタリング）と、ファミリー単位の構造的整合性を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。