[论文解读] A Molecular Multimodal Foundation Model Associating Molecule Graphs with Natural Language
MoMu 是一个分子多模态基础模型,在配对的分子图和相关文本上进行预训练,以架起图像与语言的表示桥梁,从而实现跨模态检索、分子描述、零样本文本到图生成,以及改进的性质预测。
Although artificial intelligence (AI) has made significant progress in understanding molecules in a wide range of fields, existing models generally acquire the single cognitive ability from the single molecular modality. Since the hierarchy of molecular knowledge is profound, even humans learn from different modalities including both intuitive diagrams and professional texts to assist their understanding. Inspired by this, we propose a molecular multimodal foundation model which is pretrained from molecular graphs and their semantically related textual data (crawled from published Scientific Citation Index papers) via contrastive learning. This AI model represents a critical attempt that directly bridges molecular graphs and natural language. Importantly, through capturing the specific and complementary information of the two modalities, our proposed model can better grasp molecular expertise. Experimental results show that our model not only exhibits promising performance in cross-modal tasks such as cross-modal retrieval and molecule caption, but also enhances molecular property prediction and possesses capability to generate meaningful molecular graphs from natural language descriptions. We believe that our model would have a broad impact on AI-empowered fields across disciplines such as biology, chemistry, materials, environment, and medicine, among others.
研究动机与目标
- 动机:连接分子图与自然语言,以在跨模态层面实现对分子更全面的理解。
- 在配对的图-文本数据上预训练双编码器模型,以对齐图和文本表示。
- 展示下游能力,包括跨模态检索、分子描述、零样本文本到图生成,以及性质预测。
提出的方法
- 使用两个编码器(用于图的 Graph Isomorphism Network,文本使用 BERT 变体)将分子映射到共享表示空间。
- 通过将 PubChem 分子图与从 S2orc 检索的相关 SCI 论文文本相连,创建 15,613 对图-文档对。
- 在受 GraphCL 启发的 MoMu 多视角训练设置中应用两种图增强和四种跨模态对比损失。
- 用 GraphGIN 权重初始化图编码器,用 Sci-BERT 或 KV-PLM 初始化文本编码器,以启动训练。
- 使用 InfoNCE 损失进行跨模态和同模态对比学习,以对齐图和文本表示。
- 在 PCdes 上评估跨模态检索(图到文本和文本到图),并进行零样本检索测试;评估文本到图的对齐和生成能力。
- 通过将 MoMu 图特征整合到基于 MolT5 的描述中,展示分子描述的提升。
- 提出通过在 MoFlow 生成器中优化一个潜在向量,基于与 MoMu 表示的跨模态相似性条件实现零样本文本到图的分子生成。
实验结果
研究问题
- RQ1联合图-文本编码器是否能够在共享嵌入空间中将分子图与自然语言描述对齐?
- RQ2MoMu 表示是否能够支持跨模态检索和描述,并实现零样本文本到图的分子生成?
- RQ3与单模态预训练相比,多模态预训练是否能提升分子性质预测?
- RQ4零样本生成是否能够生成与高层次文本描述相匹配且多样的分子?
主要发现
- MoMu 在图到文本和文本到图的检索中优于基线,包括零样本场景。
- MoMu 基于的图特征在 MolT5 描述指标上提升 ChEBI-20 数据集的表现。
- MoMu 预训练在 MoleculeNet 数据集上的分子性质预测平均表现更优。
- 零样本文本到图的生成能够生成符合描述条件的多样分子,利用 MoMu 与 MoFlow。
- 以多模态预训练初始化的图编码器在下游任务中优于单模态初始化。
- 在微调后,MoMu 表示在 t-SNE 可视化中显示出更清晰的性质分离。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。