[论文解读] MolFM: A Multimodal Molecular Foundation Model
MolFM 通过跨模态注意力,联合从分子结构、生物医学文本和知识图谱中学习表征,在跨模态检索、字幕生成、文本生成和性质预测等任务上达到当前最优。
Molecular knowledge resides within three different modalities of information sources: molecular structures, biomedical documents, and knowledge bases. Effective incorporation of molecular knowledge from these modalities holds paramount significance in facilitating biomedical research. However, existing multimodal molecular foundation models exhibit limitations in capturing intricate connections between molecular structures and texts, and more importantly, none of them attempt to leverage a wealth of molecular expertise derived from knowledge graphs. In this study, we introduce MolFM, a multimodal molecular foundation model designed to facilitate joint representation learning from molecular structures, biomedical texts, and knowledge graphs. We propose cross-modal attention between atoms of molecular structures, neighbors of molecule entities and semantically related texts to facilitate cross-modal comprehension. We provide theoretical analysis that our cross-modal pre-training captures local and global molecular knowledge by minimizing the distance in the feature space between different modalities of the same molecule, as well as molecules sharing similar structures or functions. MolFM achieves state-of-the-art performance on various downstream tasks. On cross-modal retrieval, MolFM outperforms existing models with 12.13% and 5.04% absolute gains under the zero-shot and fine-tuning settings, respectively. Furthermore, qualitative analysis showcases MolFM's implicit ability to provide grounding from molecular substructures and knowledge graphs. Code and models are available on https://github.com/BioFM/OpenBioMed.
研究动机与目标
- 将结构、文本和知识库的分子信息整合,以实现全局理解的动机。
- 开发一个多模态预训练框架,融合二维分子图、生物医学文本和知识图谱。
- 引入跨模态注意力机制以连接原子、图邻居和文本标记。
- 提出结构-文本对比、跨模态匹配、掩码语言建模和知识图谱嵌入等目标函数。
- 提供理论基础,展示跨模态以及与基于图的全局知识的隐式对齐。
提出的方法
- 用基于GIN的编码器对二维分子图进行编码(从 GraphMVP 初始化)。
- 用 Transformer 编码器对生物医学文本进行编码(从 KV-PLM 初始化)。
- 用基于 TransE 的编码器对知识图谱实体进行编码。
- 用多模态变换器将模态融合,在原子/邻居与文本标记之间使用跨注意力。
- 以四个目标进行预训练:结构-文本对比(STC)、跨模态匹配(CMM)、掩码语言建模(MLM)和知识图谱嵌入(KGE)。
- 通过深度度量学习提供理论论证,展示与具有相似结构/功能的分子之间以及跨模态的一致性。
实验结果
研究问题
- RQ1分子结构、生物医学文本和知识图谱的联合学习是否能超越仅使用结构-文本方法的分子表征?
- RQ2跨模态注意力是否能有效建模原子、相邻实体和文本描述之间的细粒度联系?
- RQ3能否利用知识图谱中的全局知识来提升下游分子任务?
- RQ4所提出的预训练目标是否能在跨模态间提供稳健的一致性与扎根?
主要发现
| Mode | Model | S-T MRR | S-T R@1 | S-T R@5 | S-T R@10 | T-S MRR | T-S R@1 | T-S R@5 | T-S R@10 |
|---|---|---|---|---|---|---|---|---|---|
| zero-shot | MoMu | 9.89 | 5.08 | 12.82 | 18.93 | 10.33 | 4.90 | 14.48 | 20.69 |
| zero-shot | MolFM | 21.42 | 13.90 | 28.69 | 36.21 | 23.63 | 16.14 | 30.67 | 39.54 |
| fine-tune | SciBERT | 24.98 | 16.32 | 33.91 | 42.64 | 23.92 | 14.97 | 34.05 | 41.74 |
| fine-tune | KV-PLM | 27.41 | 18.35 | 37.15 | 45.43 | 25.97 | 16.55 | 35.85 | 44.75 |
| fine-tune | KV-PLM* | 29.15 | 20.60 | 37.87 | 45.74 | 28.12 | 19.29 | 37.33 | 45.29 |
| fine-tune | GraphMVP | 31.57 | 23.26 | 40.21 | 47.39 | 30.93 | 21.94 | 40.28 | 47.90 |
| fine-tune | MoMu | 34.29 | 24.47 | 45.38 | 53.84 | 34.53 | 24.87 | 44.93 | 54.25 |
| fine-tune | MolFM | 39.56 | 29.76 | 50.53 | 58.63 | 39.34 | 29.39 | 50.26 | 58.49 |
- MolFM 在跨模态检索上达到最先进的性能,零-shot 相对 MoMu 的绝对提升为 12.13%,微调后为 5.04%。
- MolFM 在分子字幕生成和基于文本的分子生成方面优于此前方法,取得领先结果。
- 在 MoleculeNet 的性质预测任务中,使用多模态输入时 MolFM 的平均绝对增益为 1.55%。
- 消融研究表明去除知识图谱、跨模态匹配或原子/邻居注意力都会降低性能,凸显各组件的价值。
- 对跨模态注意力的可视化展示了在子结构和知识图谱上下文中的扎根能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。