[论文解读] Unraveling Molecular Structure: A Multimodal Spectroscopic Dataset for Chemistry
公开可获得的多模态光谱数据集(IR、1H-NMR、13C-NMR、HSQC-NMR、正/负 MS/MS)用于约79万个USPTO派生分子,并为单模态结构推断、光谱生成和功能基团预测提供基线基准。
Spectroscopic techniques are essential tools for determining the structure of molecules. Different spectroscopic techniques, such as Nuclear magnetic resonance (NMR), Infrared spectroscopy, and Mass Spectrometry, provide insight into the molecular structure, including the presence or absence of functional groups. Chemists leverage the complementary nature of the different methods to their advantage. However, the lack of a comprehensive multimodal dataset, containing spectra from a variety of spectroscopic techniques, has limited machine-learning approaches mostly to single-modality tasks for predicting molecular structures from spectra. Here we introduce a dataset comprising simulated $^1$H-NMR, $^{13}$C-NMR, HSQC-NMR, Infrared, and Mass spectra (positive and negative ion modes) for 790k molecules extracted from chemical reactions in patent data. This dataset enables the development of foundation models for integrating information from multiple spectroscopic modalities, emulating the approach employed by human experts. Additionally, we provide benchmarks for evaluating single-modality tasks such as structure elucidation, predicting the spectra for a target molecule, and functional group predictions. This dataset has the potential automate structure elucidation, streamlining the molecular discovery pipeline from synthesis to structure determination. The dataset and code for the benchmarks can be found at https://rxn4chemistry.github.io/multimodal-spectroscopic-dataset.
研究动机与目标
- 通过提供一个规模大、类型多样的多模态光谱数据集来激发并支持自动化、多模态结构阐明。
- 为790k分子创建六种光谱模态的模拟(IR、1H-NMR、13C-NMR、HSQC-NMR、正MS/MS、负MS/MS)。
- 对单模态任务(结构阐明、光谱生成、官能团预测)进行基线基准,以为未来多模态模型设定基线。
提出的方法
- 从 USPTO 反应数据中组装790k分子,并筛选至5–35个重原子以及受限元素集合。
- 使用既定工具对 IR、1H-NMR、13C-NMR、HSQC-NMR 和 MS/MS(正负)进行光谱模拟(NMR 使用 MestReNova,IR 使用基于分子动力学的 MD via LAMMPS/GAFF,MS/MS 使用 CFM-ID)。
- 为光谱标注峰信息并提供额外的模态特定元数据(峰位、积分、类型和 MS/MS 片段注释)。
- 将光谱表示为结构化文本标记,以训练面向下游任务的Transformer模型(结构阐明、光谱生成、官能团预测)。
- 提供基线模型(Transformer、1D-CNN、XGBoost/提升树)以评估单模态性能并建立基准。
实验结果
研究问题
- RQ1一个基于Transformer的模型是否可以从每种单独的光谱模态预测SMILES结构?
- RQ2将1H-NMR与13C-NMR结合是否比单模态在结构阐明方面有更好表现?
- RQ3从不同光谱模态能否更准确地预测分子中存在的官能团?
- RQ4对于每一种模态,来自分子结构的光谱生成质量如何(以及反之)?
主要发现
- 结构阐明的准确度随模态而异;单独时1H-NMR和13C-NMR表现最好,将它们结合可以提升Top-1/Top-5/Top-10准确率(例如,1H-NMR:65.71/81.89/84.15;13C-NMR:52.04/70.50/73.85;1H+13C:73.51/87.83/89.39)。
- 在所有模态中,功能基团预测对Transformer模型最强,达到较高的F1分数(例如1H-NMR: 0.931;13C-NMR: 0.908;IR: 0.884;MS/MS: 0.897–0.900 区间;某些模型中IR稍低)。
- 基于Transformer的光谱到结构和结构到光谱任务表现强劲但依模态而定;IR光谱在结构阐明上表现较弱,而MS/MS和NMR模态提供更高的准确性。
- 数据集支持光谱到结构和结构到光谱的基准测试,强调模态间的互补信息,为化学领域的多模态基础模型铺路。
- 模拟光谱与小型基准测试中的实验光谱显示出可接受的相似性(平均对相应Exp的相似性高于对其他实验),验证了模拟的真实度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。