Skip to main content
QUICK REVIEW

[論文レビュー] FraGNNet: A Deep Probabilistic Model for Tandem Mass Spectrum Prediction

Adamo Young, Fei Wang|arXiv (Cornell University)|Apr 2, 2024
COVID-19 diagnosis using AI被引用数 8
ひとこと要約

FraGNNet is a deep probabilistic model that integrates a fragmentation DAG with two-stage graph neural networks to predict high-resolution MS/MS spectra and enable interpretable fragment annotations, achieving state-of-the-art C2MS performance.

ABSTRACT

Compound identification from tandem mass spectrometry (MS/MS) data is a critical step in the analysis of complex mixtures. Typical solutions for the MS/MS spectrum to compound (MS2C) problem involve comparing the unknown spectrum against a library of known spectrum-molecule pairs, an approach that is limited by incomplete library coverage. Compound to MS/MS spectrum (C2MS) models can improve retrieval rates by augmenting real libraries with predicted MS/MS spectra. Unfortunately, many existing C2MS models suffer from problems with mass accuracy, generalization, or interpretability. We develop a new probabilistic method for C2MS prediction, FraGNNet, that can efficiently and accurately simulate MS/MS spectra with high mass accuracy. Our approach formulates the C2MS problem as learning a distribution over molecule fragments. FraGNNet achieves state-of-the-art performance in terms of prediction error and surpasses existing C2MS models as a tool for retrieval-based MS2C.

研究の動機と目的

  • スペクトルライブラリを拡張するための高分解能・スケーラブル・解釈可能なC2MSスペクトル予測の必要性を動機づける。
  • ヒューリスティック fragmentationと学習された潜在分布を組み合わせた確率的C2MSモデルFraGNNetを提案する。
  • NIST20データで最先端のスペクトル予測と改良されたリトリーバル性能を実証する。
  • 解釈可能なフラグメント注釈と不確実性信号(OS, latent entropy)を提供する。
  • アンサンブル分析を介した注釈の一貫性を探り、 fragmentation のあいまいさを評価する。

提案手法

  • 入力分子Gと重原子スケルトンから近似的な fragmentation DAG G_F^dを生成する二段階アプローチを採用する; Fragment GNNを用いて断片と対応する式の分布をモデル化する。
  • GNNでパラメータ化された二つの潜在分布:P_theta(n) over DAG nodes と P_theta(f|n) over formulae at each node.
  • 質量スペクトル P_theta(m) は式 masses 上のガウス混合で、分散は質量に連動し、装置の誤差を反映した切り捨てを持つ。
  • 分子GNN(GINEベース)が原子/結合の埋め込みを生成; Fragment GNNがDAGノードを処理し、サブグラフ特徴(heavy-atom skeleton, formula, DAG depth)を組み込む。
  • 損失は負の対数尤度と必要に応じたoutside-support(OS)処理、解釈可能な潜在構造を促すエントロピー正則化目的を組み合わせる。
  • エントロピー正則化された潜在項 H_hat_theta(n), H_hat_theta(f), H_hat_theta(f|n), H_hat_theta(n|f) は予測性能とフラグメンテーションの解釈性のバランスを取る。
Figure 1: Overview of MS/MS: molecules in the sample are ionized to form precursors, filtered by precursor $m/z$ (100 Da), and sent for fragmentation. The fragmentation process stochastically produces fragments with $m/z$ values of 20, 40, 65 Da. The distribution of precursor and fragment $m/z$ valu
Figure 1: Overview of MS/MS: molecules in the sample are ionized to form precursors, filtered by precursor $m/z$ (100 Da), and sent for fragmentation. The fragmentation process stochastically produces fragments with $m/z$ values of 20, 40, 65 Da. The distribution of precursor and fragment $m/z$ valu

実験結果

リサーチクエスチョン

  • RQ1FraGNNetはC2MSの高分解能スペクトル予測を達成しつつスケーラビリティを維持できるか?
  • RQ2fragmentation DAGとニューラル潜在変数を統合することは、ビン分割型および他の高分解能モデルと比較してMS2Cの検索ベース性能を改善するか?
  • RQ3潜在分布を介した断片と式の分布から、モデルはどの程度解釈可能なピーク注釈を提供できるか?
  • RQ4fragmentationの深さ(d)と水素許容度(j)はスペクトルカバレッジと予測品質にどう影響するか?
  • RQ5エントロピー正則化は精度を損なうことなく意味のある注釈のばらつきを生み出すか?

主な発見

SplitModelCOS_0.01↑COS_HUN↑P(M_OS)↓P(M_OS)-P_theta(M_OS)↓
InChIKeyFragNet-D40.717±0.0010.691±0.0010.097±0.0000.053±0.002
InChIKeyFragNet-D30.702±0.0020.675±0.0010.171±0.0000.078±0.001
InChIKeyIceberg-ADV0.702±0.0020.666±0.0020.158±0.000-
InChIKeyIceberg0.681±0.0020.645±0.0020.178±0.000-
InChIKeyMassFormer0.653±0.003---
InChIKeyNEIMS0.642±0.001---
  • FraGNNet-D4はNIST20におけるスペクトル予測のコサイン類似度で最先端を達成し、他のモデルを複数の指標で上回る。
  • MS2Cリトリーバルでは FraGNNet-D4 と FraGNNet-D3 が ICEBERG, MassFormer, NEIMS を大幅に上回るトップ1〜トップ10の精度を達成。
  • FraGNNetはノードごとの式-to-mpeak mappingsを提供し、解釈可能なピーク注釈と OS(outside of the support)ピークを特定する可能性を可能にする。
  • fragmentation depthを d=3 から d=4 に増やすと性能が向上し、P(M_OS)の低下は質量カバレッジの改善を示す。
  • 潜在注釈分布はアンサンブル間でばらつきを示し、予測的一致性と fragmentation ambiguous性の両方を示す。エントロピー正則化されたアンサンブルは注釈挙動が異なる。
Figure 2: Overview of the FraGNNet C2MS model. The input molecule ( $G$ , red box) is processed into an approximate Fragmentation DAG ( $G_{\mathcal{F}^{d}}$ , yellow box) and independently embedded by the Molecule GNN ( $g_{\theta}^{\texttt{MOL}}$ , orange box). Information from the DAG is combined
Figure 2: Overview of the FraGNNet C2MS model. The input molecule ( $G$ , red box) is processed into an approximate Fragmentation DAG ( $G_{\mathcal{F}^{d}}$ , yellow box) and independently embedded by the Molecule GNN ( $g_{\theta}^{\texttt{MOL}}$ , orange box). Information from the DAG is combined

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。