[論文レビュー] CARE: a Benchmark Suite for the Classification and Retrieval of Enzymes
CARE は酵素機能のベンチマークスイートを導入します。Task 1 は EC 番号による酵素配列の分類、Task 2 は反応から EC 番号を検索すること、そして多模態検索の基準モデル CREEP の導入。
Enzymes are important proteins that catalyze chemical reactions. In recent years, machine learning methods have emerged to predict enzyme function from sequence; however, there are no standardized benchmarks to evaluate these methods. We introduce CARE, a benchmark and dataset suite for the Classification And Retrieval of Enzymes (CARE). CARE centers on two tasks: (1) classification of a protein sequence by its enzyme commission (EC) number and (2) retrieval of an EC number given a chemical reaction. For each task, we design train-test splits to evaluate different kinds of out-of-distribution generalization that are relevant to real use cases. For the classification task, we provide baselines for state-of-the-art methods. Because the retrieval task has not been previously formalized, we propose a method called Contrastive Reaction-EnzymE Pretraining (CREEP) as one of the first baselines for this task and compare it to the recent method, CLIPZyme. CARE is available at https://github.com/jsunn-y/CARE/.
研究の動機と目的
- 現実的な二つの酵素機能タスクを形式化する:EC 番号による酵素配列の分類と反応からの EC 番号の検索。
- タンパク質配列と EC、反応と EC の関連付けデータセットを高品質に整備し、訓練・検証・一般化の分布外を想定した分割を提供する。
- Task 1 のベースラインを提供し、Task 2 の初期ベースラインとして CREEP を導入する。
- 最先端モデルの酵素機能予測・検索のベンチマークを、複数のモダリティに跨って可能にする。
提案手法
- 二つのタスクを定義する(Task 1:EC での酵素配列分類;Task 2:反応からの EC 取得)と、それに対応する評価設定。
- タンパク質-EC のマッピングには Swiss-Prot/UniProt、反応-EC のマッピングには EnzymeMap/ECReact のデータセットを整備する。
- 両タスクの訓練-検証-分割を設計し、分布外一般化を模倣する(同一性や難易度レベルを変化させる)。
- Task 1 に対する既存モデル(例:CLEAN、BLASTp、ProteInfer)をベースラインとして評価する。
- Task 2 には、反応(rxnfp)とタンパク質(ProtT5)を整列させる多模態コントラスト学習アプローチ CREEP を提案する。必要に応じて文本モダリティ(SciBERT)を併用する。
- CARE リポジトリにオープンソースのベンチマーク資源を提供する。

実験結果
リサーチクエスチョン
- RQ1訓練セットと異なる類似度の分布外配列に直面したとき、モデルはEC番号へ酵素配列を分類できるか。
- RQ2多模态表現(タンパク質配列、反応表現、テキスト説明)を活用して、見せていない反応に対してEC番号を検索できるか。
- RQ3複数のモダリティを取り入れると、未見の酵素-反応ペアの検索性能は向上するか。
主な発見
- 最先端の分類器(例:CLEAN)は、複数の分割でランダム基準や大雑把な BLASTp 基準を上回る。
- BLASTp は特定の低同一性領域で依然として競争力があることがあり、配列類似性ベースラインの価値を示す。
- Task 2 はオープン語彙(見たことのない EC)と多模態のためより難しく、難易度の高い分割では検索性能が低下する。
- CREEP は Task 2 の強力なベースラインを提供し、文本説明を付与すると特に有効で、多模態コントラスト整列の恩恵を受ける。
- より難しい分割全体で、ほとんどの手法に改善の余地が大きく、マルチモーダルかつ高度な表現戦略の必要性を強調している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。