[论文解读] Local-Global Multimodal Contrastive Learning for Molecular Property Prediction
LGM-CL 通过局部-全局图编码器与多模态对比学习,联合建模分子图与化学感知文本描述,再与指纹融合用于下游性质预测。
Accurate molecular property prediction requires integrating complementary information from molecular structure and chemical semantics. In this work, we propose LGM-CL, a local-global multimodal contrastive learning framework that jointly models molecular graphs and textual representations derived from SMILES and chemistry-aware augmented texts. Local functional group information and global molecular topology are captured using AttentiveFP and Graph Transformer encoders, respectively, and aligned through self-supervised contrastive learning. In addition, chemically enriched textual descriptions are contrasted with original SMILES to incorporate physicochemical semantics in a task-agnostic manner. During fine-tuning, molecular fingerprints are further integrated via Dual Cross-attention multimodal fusion. Extensive experiments on MoleculeNet benchmarks demonstrate that LGM-CL achieves consistent and competitive performance across both classification and regression tasks, validating the effectiveness of unified local-global and multimodal representation learning.
研究动机与目标
- 通过整合局部化学环境与全局分子拓扑,推动精确的分子性质预测。
- 开发一个统一的多模态框架,在图视图和文本视图之间利用对比学习。
- 将化学感知的SMILES扩增与LLM生成的描述结合起来,以丰富语义信息。
- 将图、文本与指纹模态融合,以实现鲁棒的下游预测。
- 在 MoleculeNet 基准数据集上通过消融和分析验证有效性。
提出的方法
- 构建双重图编码器:针对局部信息的Attentive FP与针对全局信息的Graph Transformer。
- 训练NT-Xent对比目标,以对齐局部与全局图表征。
- 对SMILES进行化学感知的自然语言描述扩增,这些描述由提示LLM生成,并使用DeBERTa将SMILES与描述对齐。
- 通过跨注意力融合图和文本表示,创建统一的嵌入。
- 将MACCS、PubChem和ErG指纹作为额外模态,通过双跨注意力进行融合以用于最终预测。
实验结果
研究问题
- RQ1如何对局部功能基团与全局拓扑进行联合建模,以实现分子性质预测?
- RQ2在图与文本视图之间进行多模态对比学习,是否能产生可迁移的分子表征?
- RQ3引入化学感知文本与指纹是否能提升下游预测性能?
主要发现
- 局部–全局图对比目标对齐两种图视图并提升性质预测的表征。
- 化学感知的SMILES扩增结合LLM生成的描述,提供了更语义丰富的文本视图。
- 基于DeBERTa的SMILES–文本对齐与双跨注意力机制增强多模态融合。
- 图、文本与指纹模态的融合在MoleculeNet基准上表现鲁棒。
- 该框架支持有效的预训练以及针对分类和回归任务的微调。
- 消融研究验证了各组成部分对性能的贡献。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。