QUICK REVIEW

[論文レビュー] Unraveling Molecular Structure: A Multimodal Spectroscopic Dataset for Chemistry

Marvin Alberts, Oliver Schilter|arXiv (Cornell University)|Jul 4, 2024

Spectroscopy and Chemometric Analyses被引用数 6

ひとこと要約

公開されているマルチモーダルスペクトログラフィデータセット（IR, 1H-NMR, 13C-NMR, HSQC-NMR, 正MS/MS, 負MS/MS）を790kのUSPTO由来分子向けに公開し、単一モダリティの構造解明、スペクトル生成、官能基予測のベースライン benchmarks を提供する。

ABSTRACT

Spectroscopic techniques are essential tools for determining the structure of molecules. Different spectroscopic techniques, such as Nuclear magnetic resonance (NMR), Infrared spectroscopy, and Mass Spectrometry, provide insight into the molecular structure, including the presence or absence of functional groups. Chemists leverage the complementary nature of the different methods to their advantage. However, the lack of a comprehensive multimodal dataset, containing spectra from a variety of spectroscopic techniques, has limited machine-learning approaches mostly to single-modality tasks for predicting molecular structures from spectra. Here we introduce a dataset comprising simulated $^1$H-NMR, $^{13}$C-NMR, HSQC-NMR, Infrared, and Mass spectra (positive and negative ion modes) for 790k molecules extracted from chemical reactions in patent data. This dataset enables the development of foundation models for integrating information from multiple spectroscopic modalities, emulating the approach employed by human experts. Additionally, we provide benchmarks for evaluating single-modality tasks such as structure elucidation, predicting the spectra for a target molecule, and functional group predictions. This dataset has the potential automate structure elucidation, streamlining the molecular discovery pipeline from synthesis to structure determination. The dataset and code for the benchmarks can be found at https://rxn4chemistry.github.io/multimodal-spectroscopic-dataset.

研究の動機と目的

大規模で多様なマルチモーダルスペクトルデータセットを提供することで、自動化されたマルチモーダル構造解明を動機づけ、実現する。
790k分子の六モスペクトロ modality のシミュレーションを作成する（IR、1H-NMR、13C-NMR、HSQC-NMR、正MS/MS、負MS/MS）。
将来のマルチモーダルモデルの基準を設定するために、単一モダリティのタスク（構造解明、スペクトル生成、官能基予測）をベンチマークする。

提案手法

USPTO反応データから790k分子を組み立て、重原子数が5–35、元素の制限セットにフィルタリングする。
IR、1H-NMR、13C-NMR、HSQC-NMR、MS/MS（正負）について、確立済みツールを用いてスペクトルをシミュレートする（NMRはMestReNova、IRはLAMMPS/GAFFによるMDベース、MS/MSはCFM-ID）。
スペクトルにピーク情報を注釈し、ピーク位置、積分、タイプ、MS/MSフラグメント注釈などの追加モダリティ特有のメタデータを提供する。
下流タスク（構造解明、スペクトル生成、官能基予測）のために、スペクトルを構造化テキストトークンとして表現し、トランスフォーマーベースのモデルを訓練する。
ベースラインモデル（トランスフォーマー、1D-CNN、XGBoost/ boosted trees）を提供し、単一モダリティの性能を評価してベンチマークを設定する。

実験結果

リサーチクエスチョン

RQ1各個別スペクトルモダリティからSMILES構造を予測するトランスフォーマーベースのモデルは実現可能か。
RQ21H-NMRと13C-NMRを組み合わせることで、単一モダリティより構造解明の性能は向上するか。
RQ3分子に含まれる官能基は異なるスペクトルモダリティからどの程度正確に予測できるか。
RQ4分子構造から生成されたスペクトル（とその逆）への品質はモダリティごとにどうか。

主な発見

モダリティ	トップ-1%	トップ-5%	トップ-10%
IR	10.74	21.42	24.12
MS/MS (Negative)	20.85	39.56	44.79
MS/MS (Positive)	23.09	42.37	47.53
13 C-NMR	52.04	70.50	73.85
1 H-NMR	65.71	81.89	84.15
1 H-NMR + 13 C-NMR	73.51	87.83	89.39

構造解明の精度はモダリティによって異なる。1H-NMRと13C-NMRは個別には最高の性能を示し、それらを組み合わせるとTop-1/Top-5/Top-10の精度が向上する（例：1H-NMR: 65.71/81.89/84.15; 13C-NMR: 52.04/70.50/73.85; 1H+13C: 73.51/87.83/89.39）。
官能基予測はモダリティ全体でトランスフォーマーモデルが最も強く、F1スコアが高い（例：1H-NMR: 0.931; 13C-NMR: 0.908; IR: 0.884; MS/MS: 0.897–0.900範囲；IRは一部モデルでわずかに低い）。
トランスフォーマー型のスペクトル→構造と構造→スペクトルタスクはモダリティ依存性が高く、IRスペクトルは構造解明が弱く、MS/MSおよびNMRモダリティが高精度を示す。
データセットはスペクトル→構造および構造→スペクトルのベンチマークを可能にし、モダリティ間の補完的情報を強調し、化学のマルチモーダルファウンデーションモデルへ道を開く。
シミュレートされたスペクトルは小規模ベンチマークで実験スペクトルと合理的な類似性を示し、対応する実験スペクトルへの類似性が他の実験より高い傾向を示すなど、シミュレーションの現実性を検証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。