Skip to main content
QUICK REVIEW

[论文解读] Local-Global Multimodal Contrastive Learning for Molecular Property Prediction

X. Liu, Zhengyi Lu|arXiv (Cornell University)|Jan 30, 2026
Computational Drug Discovery Methods被引用 0
一句话总结

LGM-CL 通过局部-全局图编码器与多模态对比学习,联合建模分子图与化学感知文本描述,再与指纹融合用于下游性质预测。

ABSTRACT

Accurate molecular property prediction requires integrating complementary information from molecular structure and chemical semantics. In this work, we propose LGM-CL, a local-global multimodal contrastive learning framework that jointly models molecular graphs and textual representations derived from SMILES and chemistry-aware augmented texts. Local functional group information and global molecular topology are captured using AttentiveFP and Graph Transformer encoders, respectively, and aligned through self-supervised contrastive learning. In addition, chemically enriched textual descriptions are contrasted with original SMILES to incorporate physicochemical semantics in a task-agnostic manner. During fine-tuning, molecular fingerprints are further integrated via Dual Cross-attention multimodal fusion. Extensive experiments on MoleculeNet benchmarks demonstrate that LGM-CL achieves consistent and competitive performance across both classification and regression tasks, validating the effectiveness of unified local-global and multimodal representation learning.

研究动机与目标

  • 通过整合局部化学环境与全局分子拓扑,推动精确的分子性质预测。
  • 开发一个统一的多模态框架,在图视图和文本视图之间利用对比学习。
  • 将化学感知的SMILES扩增与LLM生成的描述结合起来,以丰富语义信息。
  • 将图、文本与指纹模态融合,以实现鲁棒的下游预测。
  • 在 MoleculeNet 基准数据集上通过消融和分析验证有效性。

提出的方法

  • 构建双重图编码器:针对局部信息的Attentive FP与针对全局信息的Graph Transformer。
  • 训练NT-Xent对比目标,以对齐局部与全局图表征。
  • 对SMILES进行化学感知的自然语言描述扩增,这些描述由提示LLM生成,并使用DeBERTa将SMILES与描述对齐。
  • 通过跨注意力融合图和文本表示,创建统一的嵌入。
  • 将MACCS、PubChem和ErG指纹作为额外模态,通过双跨注意力进行融合以用于最终预测。

实验结果

研究问题

  • RQ1如何对局部功能基团与全局拓扑进行联合建模,以实现分子性质预测?
  • RQ2在图与文本视图之间进行多模态对比学习,是否能产生可迁移的分子表征?
  • RQ3引入化学感知文本与指纹是否能提升下游预测性能?

主要发现

  • 局部–全局图对比目标对齐两种图视图并提升性质预测的表征。
  • 化学感知的SMILES扩增结合LLM生成的描述,提供了更语义丰富的文本视图。
  • 基于DeBERTa的SMILES–文本对齐与双跨注意力机制增强多模态融合。
  • 图、文本与指纹模态的融合在MoleculeNet基准上表现鲁棒。
  • 该框架支持有效的预训练以及针对分类和回归任务的微调。
  • 消融研究验证了各组成部分对性能的贡献。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。