Skip to main content
QUICK REVIEW

[論文レビュー] Tranception: protein fitness prediction with autoregressive transformers and inference-time retrieval

Pascal Notin, Mafalda Dias|arXiv (Cornell University)|May 27, 2022
Genomics and Phylogenetic Studies被引用数 123
ひとこと要約

Tranceptionは、自己回帰型トランスフォーマーと推論時の相同性配列取得を組み合わせ、タンパク質適合性予測を高める。特に浅いアラインメントと挿入・欠失(indel)に対する性能を改善します。

ABSTRACT

The ability to accurately model the fitness landscape of protein sequences is critical to a wide range of applications, from quantifying the effects of human variants on disease likelihood, to predicting immune-escape mutations in viruses and designing novel biotherapeutic proteins. Deep generative models of protein sequences trained on multiple sequence alignments have been the most successful approaches so far to address these tasks. The performance of these methods is however contingent on the availability of sufficiently deep and diverse alignments for reliable training. Their potential scope is thus limited by the fact many protein families are hard, if not impossible, to align. Large language models trained on massive quantities of non-aligned protein sequences from diverse families address these problems and show potential to eventually bridge the performance gap. We introduce Tranception, a novel transformer architecture leveraging autoregressive predictions and retrieval of homologous sequences at inference to achieve state-of-the-art fitness prediction performance. Given its markedly higher performance on multiple mutants, robustness to shallow alignments and ability to score indels, our approach offers significant gain of scope over existing approaches. To enable more rigorous model testing across a broader range of protein families, we develop ProteinGym -- an extensive set of multiplexed assays of variant effects, substantially increasing both the number and diversity of assays compared to existing benchmarks.

研究の動機と目的

  • タンパク質ファミリー全体の適合性ランドスケープの正確なモデリングを動機づける。特に整列が難しい、あるいは無秩序領域を含む多様なプロテインに対して。
  • 推論時にリトリーバルを活用して相同性情報を取り込める、非MSA訓練のタンパク質言語モデルを開発する。
  • 置換、挿入、欠失の予測を強化し、分類群を越えた頑健な性能を提供する。
  • 多くのアッセイを横断して変異効果予測を厳密に評価する、広く多様なベンチマーク(ProteinGym)を提供する。

提案手法

  • Tranceptionを提案する。Tranception attentionを用いた自己回帰型トランスフォーマーで、複数のk-merパターンを捉えるグループ化カーネル畳み込みを使用する。
  • 標準の位置エンコーディングをGroupd ALiBiに置換して、ヘッド別の距離認識アテンションと長い文脈モデリングを可能にする。
  • 非アラインドのUniRef配列で訓練する(700Mパラメータモデル;コンテキストサイズ1024)と、双方向スコアリングを改善するためのシーケンスミラーリングを適用する。
  • 適合性を、突然変異配列と野生型配列の対数尤度比を計算してスコアリングする(Equation 2)。
  • 推論時に、推論時に取得したMSAからのリトリーバルベースの予測(P_R)と自己回帰予測(P_A)を組み合わせる(Equation 3, 4)。
  • リトリーバルを用いて、取得したMSAから偽計数補正とラプラス平滑化を用いたアミノ酸分布を各位置で取得し、サンプリングバイアスを補正するよう再重み付けする(Hopf et al. 2017)。
  • 挿入/欠失を扱う際には取得MSAの列を調整し、新しい位置には自己回帰モードに依存しつつ、左から右、および右から左のスコアを平均して安定性を確保する。

実験結果

リサーチクエスチョン

  • RQ1非アラインド配列で訓練した自己回帰型トランスフォーマーは、MSAを訓練時に頼らずに最先端のタンパク質適合性予測を達成できるのか。
  • RQ2推論時の相同性配列検索は、浅いMSAしかない、あるいはMSAが全くないタンパク質、そしてindelに対して予測を改善するのか。
  • RQ3Tranceptionは置換、複数変異体、indel、そして多様な分類群において、アライメントベースおよび他のタンパク質言語モデルと比べてどう機能するのか。
  • RQ4MSA深さに対してロバストで、整列が難しい領域や無秩序な領域をスコアリングできるのか。
  • RQ5さまざまなアッセイと分類群を横断して変異劄を総合的に評価できるベンチマーク(ProteinGym)は何か。

主な発見

  • Tranception(リトリーバル搭載)は、ProteinGymの置換およびindelベンチマークで全ベースラインを上回る。
  • リトリーバルは性能を大幅に改善し、浅いMSAを持つタンパク質や複数変異体のときに最大の利得をもたらす。
  • リトリーバルなしでもTranceptionは非リトリーバルベースラインを上回り、競合するアライメントなしモデルと互換性がある;リトリーバル時にはアライメントベース手法を上回る。
  • MSA深さに対して頑健で、整列が不十分または無秩序な領域をスコアリングできるため、BRCA1やウイルス蛋白質など幅広いタンパク質をカバーする。
  • Tranceptionはシーケンス空間の遠方への外挿で優れており、単一変異体よりも複数変異体でより大きな利得を得る。
  • ProteinGymは、indelを含む多様で広範なベンチマークを提供し、従来の手法より明確な利点を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。