Skip to main content
QUICK REVIEW

[論文レビュー] PEER: A Comprehensive and Multi-Task Benchmark for Protein Sequence Understanding

Minghao Xu, Zuobai Zhang|arXiv (Cornell University)|Jun 5, 2022
Machine Learning in Bioinformatics被引用数 59
ひとこと要約

PEER は機能、局在、構造、PPI、PLI にまたがる14のタンパク質理解タスクの包括的ベンチマークを提案し、事前学習済みタンパク質言語モデルを含むさまざまなベースラインを用いた単一タスク学習とマルチタスク学習を評価する。

ABSTRACT

We are now witnessing significant progress of deep learning methods in a variety of tasks (or datasets) of proteins. However, there is a lack of a standard benchmark to evaluate the performance of different methods, which hinders the progress of deep learning in this field. In this paper, we propose such a benchmark called PEER, a comprehensive and multi-task benchmark for Protein sEquence undERstanding. PEER provides a set of diverse protein understanding tasks including protein function prediction, protein localization prediction, protein structure prediction, protein-protein interaction prediction, and protein-ligand interaction prediction. We evaluate different types of sequence-based methods for each task including traditional feature engineering approaches, different sequence encoding methods as well as large-scale pre-trained protein language models. In addition, we also investigate the performance of these methods under the multi-task learning setting. Experimental results show that large-scale pre-trained protein language models achieve the best performance for most individual tasks, and jointly training multiple tasks further boosts the performance. The datasets and source codes of this benchmark are all available at https://github.com/DeepGraphLearning/PEER_Benchmark

研究の動機と目的

  • タンパク質配列理解の標準化された包括的ベンチマークの必要性を動機づけ、深層学習手法の進展を加速させること。
  • 多様なタンパク質理解タスクと現実的な分割を含むマルチタスクベンチマーク(PEER)を提供し、一般化性能を評価する。
  • 特徴量設計から事前学習済みタンパク質言語モデルまでのさまざまなベースラインを、単一タスクおよびマルチタスク設定の下で評価する。

提案手法

  • 機能、局在、構造、PPI、PLI の5グループにまたがる14タスクを定義する。
  • タンパク質をシーケンスとして表現し、PLI タスクではリガンドを分子グラフとして表現する。
  • 特徴量設計子(DDE, Moran)、シーケンスエンコーダ(LSTM、Transformer、CNN、ResNet)、および事前学習モデル(ProtBert、ESM-1b)を含むベースラインモデルを評価する。
  • 3つのモデルパイプラインを検討する:タスク特異的エンコーダとMLP予測子、PPI用のシアミーズエンコーダ、リガンド用のGINを用いたタンパク質–リガンドエンコーダ。
  • ハードパラメータ共有によるセンタータスク/補助タスク設定を用いた単一タスク学習とマルチタスク学習を調査する。
  • 一般化と分布外耐性を評価するように設計された訓練、検証、テストの分割を提供する。

実験結果

リサーチクエスチョン

  • RQ1各PEERタスクにおけるさまざまなシーケンスベースのエンコーダと事前学習済みタンパク質言語モデルの性能はどうか?
  • RQ2多様なタンパク質タスク全体で、マルチタスク学習設定は単一タスクのベースラインより性能を改善するか?
  • RQ3共有表現と知識転移がマルチタスク設定で最も恩恵を受けるタスクファミリはどれか?
  • RQ4異なるデータ分割(高次変異体の扱い、リモートホモロジーなど)は一般化性能にどう影響するか?
  • RQ5タスク間で事前学習モデルを微調整することと凍結することの相対的な利益はどれか?

主な発見

  • 事前学習済みタンパク質言語モデル(ESM-1b、ProtBert)はほとんどのタスクで最高性能を達成し、特に微調整時に顕著である。
  • 共有エンコーダを用いたマルチタスク訓練は、センタータスクの性能を単一タスクのベースラインよりさらに向上させる可能性がある。
  • 統計的特徴量(DDE)は特定のタスクで学習エンコーダと競合可能であり、シーケンス中の補完的な信号を強調している。
  • 浅いCNNは、いくつかのタスクでゼロから学習させた場合に深いモデルを上回ることがある。
  • PPIおよびPLIタスクはデータ分割に強く敏感で、一般化を評価するには冗長性の除去を慎重に行う必要がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。