Skip to main content
QUICK REVIEW

[論文レビュー] Interpretable Enzyme Function Prediction via Residue-Level Detection

Yang Zhao, Bing Su|arXiv (Cornell University)|Jan 10, 2025
Computational Drug Discovery Methods被引用数 3
ひとこと要約

ProtDETR は機能クエリを学習可能な残基レベル検出として酵素機能予測を扱い、マルチ機能酵素注釈における再現率を最先端に、EC番号特異的な解釈性をクロスアテンションで実現します。

ABSTRACT

Predicting multiple functions labeled with Enzyme Commission (EC) numbers from the enzyme sequence is of great significance but remains a challenge due to its sparse multi-label classification nature, i.e., each enzyme is typically associated with only a few labels out of more than 6000 possible EC numbers. However, existing machine learning algorithms generally learn a fixed global representation for each enzyme to classify all functions, thereby they lack interpretability and the fine-grained information of some function-specific local residue fragments may be overwhelmed. Here we present an attention-based framework, namely ProtDETR (Protein Detection Transformer), by casting enzyme function prediction as a detection problem. It uses a set of learnable functional queries to adaptatively extract different local representations from the sequence of residue-level features for predicting different EC numbers. ProtDETR not only significantly outperforms existing deep learning-based enzyme function prediction methods, but also provides a new interpretable perspective on automatically detecting different local regions for identifying different functions through cross-attentions between queries and residue-level features. Code is available at https://github.com/yangzhao1230/ProtDETR.

研究の動機と目的

  • 酵素配列から複数の EC 番号を予測する動機付け。マルチラベルアノテーションが希少である点。
  • 機能特異的な局所残基情報を捉えるためのグローバルタンパク質表現の制約。
  • 酵素機能に対する解釈性を持つ残基レベル検出フレームワークを開発。
  • 機能的残基断片を検出するための注意機構を持つ DETR に触発されたアプローチを活用。
  • エンコーダ–デコーダ注意パターンを通じてEC番号特異的な解釈性を提供する。

提案手法

  • エンコーダ–デコーダ トランスフォーマー( ProtDETR )を用いて酵素機能予測を残基レベル検出問題として定式化。
  • 残基レベル特徴から機能特異的な局所表現を適応的に抽出する学習可能な10個の機能クエリを使用。
  • 残基特徴と機能クエリ間のクロスアテンションにより機能予測または不在信号を得る。
  • 二部グラフ整合性の目的を用いてクエリ予測と真のEC番号を整列(セット予測)させる。
  • 残基間の配列情報を保持するためのエンコーダ入力としてESM-1b由来の残基埋め込みを活用。
  • マルチ機能および単機能の酵素データセットで評価し、CLEAN、DeepECtransformer、ProtInfer などと比較。

実験結果

リサーチクエスチョン

  • RQ1小さなセットの機能クエリで残基レベル検出は、グローバル表現よりも1つの酵素に対して複数のEC番号をより効果的に捉えられるか。
  • RQ2エンコーダ–デコーダ DETR風アーキテクチャはクロスアテンションを通じてEC番号特異的な解釈性を提供するか。
  • RQ3マルチ機能対単機能予測における ProtDETR の性能は最先端法と比べてどうか。
  • RQ4長尾EC番号分布において高い再現率を維持しつつ精度を向上できるか。

主な発見

  • New-392 データセットで ProtDETR は precision 0.5943、recall 0.6083 を達成(CLEAN の 0.4811 より約25%再現率が高い)。
  • Price-149 データセットで ProtDETR は precision 0.5066、recall 0.5066 を達成(再現率は CLEAN の 0.4671 より高い)。
  • 高いシーケンス類似性レベルで ProtDETR は CLEAN を上回る(split70: 0.9332 vs 0.9163、split100: 0.9686 vs 0.9534 の F1)。
  • ProtDETR は精度でSOTAと同等、特にマルチ機能予測におけるEC番号全体で再現率を著しく改善。
  • 単機能評価(ECPred40) では ProtDETR が EnzBert および ECPred をほとんどのレベルと指標で上回り、ECレベルの識別性が強いことを示唆。
  • クエリと残基特徴間のクロスアテンションにより機能残基のEC番号特異的解釈性を実現。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。