QUICK REVIEW

[論文レビュー] Pre-Training of Deep Bidirectional Protein Sequence Representations with Structural Information

Seonwoo Min, Seunghyun Park|arXiv (Cornell University)|Nov 25, 2019

Genomics and Phylogenetic Studies参考文献 59被引用数 26

ひとこと要約

本稿では、マスクド言語モデリングに加え、タンパク質固有の同じファミリー予測タスクを統合した、深く双方向なタンパク質配列表現のための新規事前学習フレームワークであるPLUSを提案する。未ラベルの配列からの構造的および進化的な情報を活用することで、PLUS-RNNは7つの主要なタンパク質生物学的タスクにおいて、既存のモデルを上回る性能を示し、特に長配列や複雑な構造予測において優れた汎化性とロバスト性を示している。

ABSTRACT

Bridging the exponentially growing gap between the numbers of unlabeled and labeled protein sequences, several studies adopted semi-supervised learning for protein sequence modeling. In these studies, models were pre-trained with a substantial amount of unlabeled data, and the representations were transferred to various downstream tasks. Most pre-training methods solely rely on language modeling and often exhibit limited performance. In this paper, we introduce a novel pre-training scheme called PLUS, which stands for Protein sequence representations Learned Using Structural information. PLUS consists of masked language modeling and a complementary protein-specific pre-training task, namely same-family prediction. PLUS can be used to pre-train various model architectures. In this work, we use PLUS to pre-train a bidirectional recurrent neural network and refer to the resulting model as PLUS-RNN. Our experiment results demonstrate that PLUS-RNN outperforms other models of similar size solely pre-trained with the language modeling in six out of seven widely used protein biology tasks. Furthermore, we present the results from our qualitative interpretation analyses to illustrate the strengths of PLUS-RNN. PLUS provides a novel way to exploit evolutionary relationships among unlabeled proteins and is broadly applicable across a variety of protein biology tasks. We expect that the gap between the numbers of unlabeled and labeled proteins will continue to grow exponentially, and the proposed pre-training method will play a larger role.

研究の動機と目的

未ラベルとラベル付きのタンパク質配列の間の増大する不均衡に対処するため、半教師あり事前学習手法を開発すること。
標準的な言語モデリングを越えて、進化的および構造的関係を組み込むことで、タンパク質表現学習を向上させること。
タンパク質間の機能的および進化的類似性を捉えるために、補完的な事前学習タスク「同じファミリー予測」を設計すること。
機能予測、構造予測、トランスムエンブランス領域検出を含む、多様な下流タンパク質生物学的タスクにおけるPLUSの有効性を評価すること。
構造的情報を用いた事前学習が、標準的な言語モデリングのみに比べて、より優れた汎化性と性能をもたらすことを示すこと。

提案手法

本手法は、マスクド言語モデリング（MLM）と同じファミリー予測（SFP）の二重の事前学習目的を導入し、タンパク質表現を共同で最適化する。
PLUS-RNNは、大規模な未ラベルタンパク質配列上でMLMおよびSFPタスクを用いて事前学習された双方向RNNアーキテクチャである。
SFPタスクは、進化的関係を活用して、2つのタンパク質が同じファミリーに属するかどうかを予測することで、ペairワイズ表現を学習することを促進する。
事前学習の過程で、MLMとSFPの損失の重み付き組み合わせが最適化され、ハイパーパrameter λ_PT がその相対的重要性を制御する。
微調整は、MLMとタスク固有の損失の組み合わせによる損失関数を用い、λ_FT がそのトレードオフを制御することで、汎化性を向上させる。
本フレームワークは、RNNおよびTransformer（PLUS-TFM）を含む複数のアーキテクチャで評価され、モデルタイプを問わずスケーラビリティとロバスト性を示している。

実験結果

リサーチクエスチョン

RQ1マスクド言語モデリングにタンパク質固有の事前学習タスクを統合することで、下流のタンパク質生物学的タスクにおける表現学習が向上するか？
RQ2補完的な事前学習目的としての同じファミリー予測の導入は、言語モデリングのみに比べてモデル性能にどのように影響するか？
RQ3PLUSフレームワークは、特にアテンションベースのモデルのコンテキスト窓を超える長タンパク質において、さまざまなタンパク質配列長に一般化できるか？
RQ4構造的および進化的な情報を用いた事前学習は、多様な下流タスクにおける汎化性と性能をどの程度向上させるか？
RQ5MLMとSFPタスクの共同最適化は、モデルのロバスト性および微調整性能にどのように影響するか？

主な発見

PLUS-RNNは、7つのベンチマークタンパク質生物学的タスクのうち6つにおいて、言語モデリングのみで事前学習されたすべての同等モデルを上回り、優れた汎化性を示した。
同じファミリー予測（SFP）タスクは、特にMLMと組み合わせた場合に性能向上に顕著な寄与を示し、MLMを削除した場合よりも効果的であり、補完的役割を果たしていることが示された。
MLMとタスク固有の損失の両方を用いた微調整は、タスク固有の損失のみを用いた場合よりも一貫して性能を向上させ、MLMが正則化の役割を果たしていることを示唆した。
PLUS-RNNはタンパク質長にかかわらず強固な性能を維持したが、PLUS-TFMは長配列（512アミノ酸以上）において劣化を示し、固定コンテキストアテンションモデルの限界を浮き彫りにした。
アブレーションスタディの結果、両方の事前学習タスクが肯定的に寄与しており、MLMがより強い影響を及ぼしたが、SFPは重要な進化的な文脈を提供していた。
結果から、SFPを用いた進化的関係の活用が、遠く離れた関係のタンパク質でさえも機能的および構造的類似性を捉える能力をモデルが高めることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。