QUICK REVIEW

[논문 리뷰] Local-Global Multimodal Contrastive Learning for Molecular Property Prediction

X. Liu, Zhengyi Lu|arXiv (Cornell University)|2026. 01. 30.

Computational Drug Discovery Methods인용 수 0

한 줄 요약

LGM-CL은 지역-글로벌 그래프 인코더와 다중모달 대비 학습을 통해 분자 그래프와 화학 인식 텍스트 설명을 공동으로 모델링하고, 이후 지문과 융합하여 다운스트림 특성 예측을 수행한다.

ABSTRACT

Accurate molecular property prediction requires integrating complementary information from molecular structure and chemical semantics. In this work, we propose LGM-CL, a local-global multimodal contrastive learning framework that jointly models molecular graphs and textual representations derived from SMILES and chemistry-aware augmented texts. Local functional group information and global molecular topology are captured using AttentiveFP and Graph Transformer encoders, respectively, and aligned through self-supervised contrastive learning. In addition, chemically enriched textual descriptions are contrasted with original SMILES to incorporate physicochemical semantics in a task-agnostic manner. During fine-tuning, molecular fingerprints are further integrated via Dual Cross-attention multimodal fusion. Extensive experiments on MoleculeNet benchmarks demonstrate that LGM-CL achieves consistent and competitive performance across both classification and regression tasks, validating the effectiveness of unified local-global and multimodal representation learning.

연구 동기 및 목표

로컬 화학 환경과 글로벌 분자 토폴로지를 통합하여 정확한 분자 특성 예측을 촉진한다.
그래프 및 텍스트 뷰 전반에 걸친 대비 학습을 활용하는 통합 멀티모달 프레임워크를 개발한다.
화학 인식 SMILES 증가 및 LLM이 생성한 서술을 도입하여 시맨틱 정보를 풍부하게 한다.
그래프, 텍스트 및 지문 모달리티를 융합하여 강건한 다운스트림 예측을 달성한다.
멜로큘넷(MoleculeNet) 벤치마크에서 소거실험과 분석과 함께 유효성을 입증한다.

제안 방법

듀얼 그래프 인코더를 구성한다: 로컬 정보는 Attentive FP, 글로벌 정보는 Graph Transformer를 사용한다.
로컬 및 글로벌 그래프 표현을 정렬하기 위해 NT-Xent 대비 목표를 학습한다.
프롬프트 LLM이 생성한 화학 인식 자연어 설명으로 SMILES를 증강하고, DeBERTa를 사용하여 SMILES와 이러한 설명을 정렬한다.
교차 어텐션을 통해 그래프 및 텍스트 표현을 융합하여 통합 임베딩을 생성한다.
추가 모달리티로 MACCS, PubChem, ErG 지문을 포함하고 듀얼 크로스 어텐션으로 융합하여 최종 예측을 수행한다.

실험 결과

연구 질문

RQ1로컬 기능그룹과 글로벌 토폴로지를 어떻게 함께 모델링하여 분자 특성 예측을 수행할 수 있는가?
RQ2그래프와 텍스트 뷰 간의 멀티모달 대비 학습이 전이 가능한 분자 표현을 생성할 수 있는가?
RQ3화학 인식 텍스트와 지문을 포함하는 것이 다운스트림 예측 성능을 향상시키는가?

주요 결과

로컬-글로벌 그래프 대비 목표가 두 그래프 뷰를 정렬하고 특성 예측을 위한 표현을 향상시킨다.
화학 인식 SMILES 증가와 LLM이 생성한 서술이 시맨틱적으로 더 풍부한 텍스트 뷰를 제공한다.
DuAL cross-attention을 이용한 DeBERTa 기반 SMILES-텍스트 정렬은 멀티모달 융합을 향상시킨다.
그래프, 텍스트 및 지문 모달리티를 융합한 결과 MoleculeNet 벤치마크에서 강건한 성능을 보인다.
이 프레임워크는 분류 및 회귀 작업에 대해 효과적인 프리트레이닝 및 태스크 특이적 파인튜닝을 가능하게 한다.
소거 연구를 통해 각 구성요소가 성능에 기여함을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.