Skip to main content
QUICK REVIEW

[論文レビュー] MADGEN: Mass-Spec attends to De Novo Molecular generation

Yinkai Wang, Xiaohong Chen|arXiv (Cornell University)|Jan 3, 2025
Electron and X-Ray Spectroscopy Techniques被引用数 3
ひとこと要約

MADGENはMS/MSスペクトルに guided by de novo分子生成の2段階スキャフォールドベースのフレームワークを導入:対比学習によるスキャフォールド取得とマークオブブリッジモデルと classifier-free ガイダンスを用いたスペクトル指示のスキャフォールド条件付き生成。

ABSTRACT

The annotation (assigning structural chemical identities) of MS/MS spectra remains a significant challenge due to the enormous molecular diversity in biological samples and the limited scope of reference databases. Currently, the vast majority of spectral measurements remain in the "dark chemical space" without structural annotations. To improve annotation, we propose MADGEN (Mass-spec Attends to De Novo Molecular GENeration), a scaffold-based method for de novo molecular structure generation guided by mass spectrometry data. MADGEN operates in two stages: scaffold retrieval and spectra-conditioned molecular generation starting with the scaffold. In the first stage, given an MS/MS spectrum, we formulate scaffold retrieval as a ranking problem and employ contrastive learning to align mass spectra with candidate molecular scaffolds. In the second stage, starting from the retrieved scaffold, we employ the MS/MS spectrum to guide an attention-based generative model to generate the final molecule. Our approach constrains the molecular generation search space, reducing its complexity and improving generation accuracy. We evaluate MADGEN on three datasets (NIST23, CANOPUS, and MassSpecGym) and evaluate MADGEN's performance with a predictive scaffold retriever and with an oracle retriever. We demonstrate the effectiveness of using attention to integrate spectral information throughout the generation process to achieve strong results with the oracle retriever.

研究の動機と目的

  • 闇空間のMS/MSスペクトルのアノテーション課題に対処するため、スキャフォールドベースのデノボ生成法を提案する。
  • 2段階のフレームワークを開発する: (i) MS/MSスペクトルからのスキャフォールド取得、および (ii) スペクトルに導かれたスキャフォールド条件付き分子生成。
  • 複数データセット(NIST23、CANOPUS、MassSpecGym)でスキャフォールド取得(予測的 vs オラクル)とデノボ生成を評価する。
  • スペクトルの注意機構による統合が生成精度とスキャフォールドを構造的アンカーとしての解釈性を改善することを示す。

提案手法

  • スペクトルとスキャフォールドの埋め込みを整列させる対照学習で訓練されたランキング問題としてスキャフォールド取得を定式化する(スペクトルのMLP、スキャフォールドのGNN)。
  • 共通潜在空間内のコサイン類似度を用いて生成の上位kスキャフォールド候補を選択する。
  • 第二段のベンチマークとしてRDKitを用いて分子グラフから正しいスキャフォールドを抽出するオラクル取得バリアントを提供する。
  • スキャフォールド条件付きデノボ生成を、スキャフォールドへ原子を段階的につなぐエッジ生成プロセスに基づくマークオブブリッジで実行する。
  • 各ステップでスペクトルを質量スペクトルに条件付けする classifier-free ガイダンスを取り入れ、CFGスケーリングされたロジット結合を介して生成を制御する。
  • スペクトルをピークの列としてエンコードし、自己注意を適用し、ノードとエッジを横断するクロスアテンションを介してグラフニューラルネットワークにスペクトル情報を注入する。
Figure 1: MADGEN overview and example. (a) The overview of MADGEN. The mass spectra are used to rank scaffold candidates through contrastive learning. The top-ranked scaffold, with blue edges fixed, serves as a foundation for de novo molecule generation, guided by the spectra at each generation step
Figure 1: MADGEN overview and example. (a) The overview of MADGEN. The mass spectra are used to rank scaffold candidates through contrastive learning. The top-ranked scaffold, with blue edges fixed, serves as a foundation for de novo molecule generation, guided by the spectra at each generation step

実験結果

リサーチクエスチョン

  • RQ1MS/MSスペクトルを用いてデノボ生成のための妥当なスキャフォールドを効果的に取得できるか?
  • RQ2スキャフォールドベースのデノボ生成は完全エンドツーエンドアプローチと比較して生成精度と解釈性を向上させるか?
  • RQ3オラクルスキャフォールドシナリオは予測的スキャフォールド取得と比較して分子生成の正確性をどう支援するか?
  • RQ4スペクトルガイド条件付けとCFGが生成品質と多様性に与える影響は?
  • RQ5MADGENは多様なデータセット(NIST23、CANOPUS、MassSpecGym)でTop-1/Top-10精度と構造類似性の点でどう機能するか?

主な発見

  • 予測的スキャフォールド取得を用いたMADGENはデータセット間でスキャフォールド予測精度を34.8%〜57.8%の範囲で達成し、NIST23でスキャフォールドの多様性によりSPAが高い。
  • 予測的スキャフォールド取得はトップ1分子生成精度を控えめに示す(例:NIST23で10.3%、CANOPUSで1.0%、MassSpecGymで0.8%)。
  • オラクルスキャフォールド取得は性能を大幅に向上させ、NIST23でTop-1 49.0%、Top-10 65.5%、CANOPUSでTop-1 8.9%、Top-? 65.5%、MassSpecGymでTop-1 18.8%を達成。
  • オラクルスキャフォールドを用いたMADGENはランダム生成のための最良公表MassSpecGymの結果を上回り、正確なスキャフォールドの重要性を示す。
  • アブレーション研究は、スペクトルのトークン化 + 自己注意 + クロスアテンション + CFG(ノードレベル)が tested configurations の中で最良の条件付け性能を示すことを示す。
  • 感度分析は、より多くの自由原子(より大きなスキャフォールド)で生成が難しくなり精度が低下することを示す。
Figure 2: Overview of the MADGen model framework. The input consists of m/z peaks and intensities $(m,I)$ , which are passed through an MLP for embedding. These embeddings are processed through self-attention and combined with the molecular graph’s node and edge embeddings via cross-attention. The n
Figure 2: Overview of the MADGen model framework. The input consists of m/z peaks and intensities $(m,I)$ , which are passed through an MLP for embedding. These embeddings are processed through self-attention and combined with the molecular graph’s node and edge embeddings via cross-attention. The n

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。