Skip to main content
QUICK REVIEW

[論文レビュー] CARE: a Benchmark Suite for the Classification and Retrieval of Enzymes

Jason Yang, Ariane Mora|arXiv (Cornell University)|Jun 21, 2024
Advanced Proteomics Techniques and Applications被引用数 7
ひとこと要約

CARE は酵素機能のベンチマークスイートを導入します。Task 1 は EC 番号による酵素配列の分類、Task 2 は反応から EC 番号を検索すること、そして多模態検索の基準モデル CREEP の導入。

ABSTRACT

Enzymes are important proteins that catalyze chemical reactions. In recent years, machine learning methods have emerged to predict enzyme function from sequence; however, there are no standardized benchmarks to evaluate these methods. We introduce CARE, a benchmark and dataset suite for the Classification And Retrieval of Enzymes (CARE). CARE centers on two tasks: (1) classification of a protein sequence by its enzyme commission (EC) number and (2) retrieval of an EC number given a chemical reaction. For each task, we design train-test splits to evaluate different kinds of out-of-distribution generalization that are relevant to real use cases. For the classification task, we provide baselines for state-of-the-art methods. Because the retrieval task has not been previously formalized, we propose a method called Contrastive Reaction-EnzymE Pretraining (CREEP) as one of the first baselines for this task and compare it to the recent method, CLIPZyme. CARE is available at https://github.com/jsunn-y/CARE/.

研究の動機と目的

  • 現実的な二つの酵素機能タスクを形式化する:EC 番号による酵素配列の分類と反応からの EC 番号の検索。
  • タンパク質配列と EC、反応と EC の関連付けデータセットを高品質に整備し、訓練・検証・一般化の分布外を想定した分割を提供する。
  • Task 1 のベースラインを提供し、Task 2 の初期ベースラインとして CREEP を導入する。
  • 最先端モデルの酵素機能予測・検索のベンチマークを、複数のモダリティに跨って可能にする。

提案手法

  • 二つのタスクを定義する(Task 1:EC での酵素配列分類;Task 2:反応からの EC 取得)と、それに対応する評価設定。
  • タンパク質-EC のマッピングには Swiss-Prot/UniProt、反応-EC のマッピングには EnzymeMap/ECReact のデータセットを整備する。
  • 両タスクの訓練-検証-分割を設計し、分布外一般化を模倣する(同一性や難易度レベルを変化させる)。
  • Task 1 に対する既存モデル(例:CLEAN、BLASTp、ProteInfer)をベースラインとして評価する。
  • Task 2 には、反応(rxnfp)とタンパク質(ProtT5)を整列させる多模態コントラスト学習アプローチ CREEP を提案する。必要に応じて文本モダリティ(SciBERT)を併用する。
  • CARE リポジトリにオープンソースのベンチマーク資源を提供する。
Figure 1: Overview of CARE. (A) Dataset format for CARE, showing examples of enzymes and their associated reactions. The EC number acts as a bridge between a protein sequence and the reactions it is likely to perform. The EC number is a hierarchical classification scheme for enzyme function with fou
Figure 1: Overview of CARE. (A) Dataset format for CARE, showing examples of enzymes and their associated reactions. The EC number acts as a bridge between a protein sequence and the reactions it is likely to perform. The EC number is a hierarchical classification scheme for enzyme function with fou

実験結果

リサーチクエスチョン

  • RQ1訓練セットと異なる類似度の分布外配列に直面したとき、モデルはEC番号へ酵素配列を分類できるか。
  • RQ2多模态表現(タンパク質配列、反応表現、テキスト説明)を活用して、見せていない反応に対してEC番号を検索できるか。
  • RQ3複数のモダリティを取り入れると、未見の酵素-反応ペアの検索性能は向上するか。

主な発見

  • 最先端の分類器(例:CLEAN)は、複数の分割でランダム基準や大雑把な BLASTp 基準を上回る。
  • BLASTp は特定の低同一性領域で依然として競争力があることがあり、配列類似性ベースラインの価値を示す。
  • Task 2 はオープン語彙(見たことのない EC)と多模態のためより難しく、難易度の高い分割では検索性能が低下する。
  • CREEP は Task 2 の強力なベースラインを提供し、文本説明を付与すると特に有効で、多模態コントラスト整列の恩恵を受ける。
  • より難しい分割全体で、ほとんどの手法に改善の余地が大きく、マルチモーダルかつ高度な表現戦略の必要性を強調している。
Figure 2: Distribution of similarities between samples in each test set and the corresponding train set. (A) Protein sequence identity (Task 1) was measured to the closest hit in the train set using BLASTp. Sequence identity can be thought of as normalized Levenshtein distance. (B) Reaction similari
Figure 2: Distribution of similarities between samples in each test set and the corresponding train set. (A) Protein sequence identity (Task 1) was measured to the closest hit in the train set using BLASTp. Sequence identity can be thought of as normalized Levenshtein distance. (B) Reaction similari

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。