QUICK REVIEW

[論文レビュー] Variational auto-encoding of protein sequences

Sam Sinai, Eric D. Kelsic|arXiv (Cornell University)|Dec 9, 2017

Genomics and Phylogenetic Studies参考文献 10被引用数 49

ひとこと要約

本論文は、複数配列アラインメント（MSA）を用いた自然な配列変異から、非教師ありのタンパク質配列表現を学習するための変分オートエンコーダー（VAE）を提案する。このVAEは、突然変異の機能的影響の予測や、配列-構造関係の同定を可能にする。VAEは、ペアワイズおよびそれ以上の高次相互作用を捉える連続的かつ低次元の潜在空間を学習し、ベースラインモデルを上回り、逆Pottsモデルに近い性能を示す。

ABSTRACT

Proteins are responsible for the most diverse set of functions in biology. The ability to extract information from protein sequences and to predict the effects of mutations is extremely valuable in many domains of biology and medicine. However the mapping between protein sequence and function is complex and poorly understood. Here we present an embedding of natural protein sequences using a Variational Auto-Encoder and use it to predict how mutations affect protein function. We use this unsupervised approach to cluster natural variants and learn interactions between sets of positions within a protein. This approach generally performs better than baseline methods that consider no interactions within sequences, and in some cases better than the state-of-the-art approaches that use the inverse-Potts model. This generative model can be used to computationally guide exploration of protein sequence space and to better inform rational and automatic protein design.

研究の動機と目的

自然なタンパク質バリアントの複数配列アラインメント（MSA）から、非教師ありの深層生成モデルを用いたタンパク質配列表現の開発。
ラベルなしのフィットネスデータを用いずに、単一および二重アミノ酸突然変異の機能的影響を予測すること。
進化的および機能的関係をタンパク質配列間で符号化する、連続的かつ低次元の潜在空間を学習すること。
合理的なタンパク質設計のためのタンパク質配列空間の計算的探索を可能にすること。

提案手法

自然なタンパク質バリアントの複数配列アラインメント（MSA）上で訓練された変分オートエンコーダー（VAE）は、圧縮され、連続的な潜在表現を学習する。
モデルは、真の潜在変数の事後分布を近似するために、下界の尤度（ELBO）を最大化するための変分推論を用いる。
エンコーダーはワンホットエンコードされたタンパク質配列を潜在ガウス分布にマッピングし、デコーダーはサンプリングされた潜在ベクトルから入力配列を再構築する。
VAEは潜在空間を正規化するためのKLダイバージェンス項を組み込み、それが標準正規分布に近づくように正則化する。
再構築の違いから、アミノ酸位置間の非線形的依存関係および高次相互作用が捉えられていることが示された。
t-SNEを用いた2次元での潜在空間の可視化により、系統発生的クラスタリングおよび突然変異体が基準配列に近接していることが明らかになった。

実験結果

リサーチクエスチョン

RQ1VAEは、ラベルなしのMSAから、機能的および進化的関係を反映する意味のある連続的表現を学習できるか？
RQ2ベースラインおよび最先端モデルと比較して、VAEは単一および二重突然変異の機能的影響をどの程度正確に予測できるか？
RQ3学習された潜在空間は、系統的距離や突然変異効果といった生物学的に関連する構造を符号化しているか？
RQ4VAEは、ペアワイズ相関関係を超えたアミノ酸位置間の高次相互作用を捉えられるか？
RQ5連続的潜在空間は、機能的設計のためのタンパク質配列空間の計算的探索を支援できるか？

主な発見

VAEが予測する機能的スコアは、実験的フィットネス測定と強く相関しており、5つのテストデータセットで独立およびペアワイズベースラインモデルを上回った。
PABPタンパク質において、VAEは逆Pottsモデルを上回り、特にMSAサイズが大きい状況で単一および二重突然変異のフィットネス効果を予測する性能を示した。
2次元潜在空間のプロットでは、最小編集距離グループに対応する明確なクラスタが観察され、モデルが系統的および進化的関係を捉えていることが示された。
単一の突然変異が、再構築において複数の位置でのアミノ酸確率に変化を引き起こすことが示され、モデルが非局所的かつ高次元の相互作用を符号化できることを示した。
潜在空間は連続的な走査を可能にし、離散的探索手法とは異なり、勾配ベース最適化を用いたタンパク質設計の新しい道筋を提供した。
モデルは高い尤度を持つ妥当な新しい配列を生成でき、仮想スクリーニングおよびデノボタンパク質設計への応用可能性を示唆した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。