Skip to main content
QUICK REVIEW

[論文レビュー] ProtST: Multi-Modality Learning of Protein Sequences and Biomedical Texts

Minghao Xu, Xinyu Yuan|arXiv (Cornell University)|Jan 28, 2023
Machine Learning in Bioinformatics被引用数 30
ひとこと要約

ProtSTはProtDescribeを導入し、タンパク質配列と生物医学テキストを結ぶペア型データセットと、タンパク質配列と生物医学テキストを整合させてタンパク質表現を向上させ、ゼロショット予測とテキスト対タンパク質検索を可能にする多模態事前学習フレームワークを提供します。

ABSTRACT

Current protein language models (PLMs) learn protein representations mainly based on their sequences, thereby well capturing co-evolutionary information, but they are unable to explicitly acquire protein functions, which is the end goal of protein representation learning. Fortunately, for many proteins, their textual property descriptions are available, where their various functions are also described. Motivated by this fact, we first build the ProtDescribe dataset to augment protein sequences with text descriptions of their functions and other important properties. Based on this dataset, we propose the ProtST framework to enhance Protein Sequence pre-training and understanding by biomedical Texts. During pre-training, we design three types of tasks, i.e., unimodal mask prediction, multimodal representation alignment and multimodal mask prediction, to enhance a PLM with protein property information with different granularities and, at the same time, preserve the PLM's original representation power. On downstream tasks, ProtST enables both supervised learning and zero-shot prediction. We verify the superiority of ProtST-induced PLMs over previous ones on diverse representation learning benchmarks. Under the zero-shot setting, we show the effectiveness of ProtST on zero-shot protein classification, and ProtST also enables functional protein retrieval from a large-scale database without any function annotation.

研究の動機と目的

  • 生物医学テキストで記述されたタンパク質特性を用いてタンパク質配列表現を拡張する。
  • 配列とリッチな特性記述を組み合わせるProtDescribeを作成する。
  • 配列モデリング能力を維持しつつ特性情報を注入する多模態事前学習タスクを開発する。
  • 下流の教師あり学習とゼロショットのタンパク質分類・検索を可能にする。

提案手法

  • 自身とテキストの表現を対比的InfoNCE損失で整合させ、ミルモーダル表現を適用する。
  • 残基と語の間の相互依存性をモデル化する融合モジュールを用いて、マスクされた残基と語を回復する多模態マスク予測を導入する。
  • 凍結された生物医学言語モデル(PubMedBERT)と融合モジュールを用いてPLM(ProtBert/ESM系列)を事前学習する。
  • ラベル記述とゼロショットのテキスト対タンパク質検索をサポートするよう、表現を整列させる。

実験結果

リサーチクエスチョン

  • RQ1テキストによるタンパク質特性記述は、シーケンスのみのPLMを超えるタンパク質配列表現を向上させるか。
  • RQ2多模態整合とクロスモーダルマスクが下流のタンパク質局在性、適合性、機能予測をどの程度改善するか。
  • RQ3ProtST導入モデルは、機能注釈なしでラベル記述とゼロショット検索を用いた効果的なゼロショットタンパク質分類を実現できるか。
  • RQ4Swiss-Protベースのデータ品質が表現学習と一般化に与える影響はどの程度か。

主な発見

  • ProtST誘導PLMは局在性、適合性、機能注釈のベンチマークで、素のPLMより一貫して高い性能を示す。
  • ProtST-ESM-2は、評価設定全体で最高の局在性と競争力のある機能注釈指標を達成。
  • ゼロショットのProtST分類器は、局在性と反応分類タスクで、特定の少数ショットの教師ありベースラインと同等かそれ以上の性能を示す。
  • ゼロショットのテキスト対タンパク質検索は、機能注釈なしでGOのプロンプトから機能タンパク質を特定する能力を示す。
  • ゼロショットと教師ありモデルのアンサンブルは、下流タスクの性能をさらに向上させうる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。