[논문 리뷰] MolFM: A Multimodal Molecular Foundation Model
MolFM은 분자 구조, 생물 의학 텍스트, 지식 그래프에서 표현을 공동으로 학습하고 교차 모달 주의를 사용하여 교차 모달 검색, 캡션 생성, 생성 및 특성 예측에서 최첨단 성과를 달성한다.
Molecular knowledge resides within three different modalities of information sources: molecular structures, biomedical documents, and knowledge bases. Effective incorporation of molecular knowledge from these modalities holds paramount significance in facilitating biomedical research. However, existing multimodal molecular foundation models exhibit limitations in capturing intricate connections between molecular structures and texts, and more importantly, none of them attempt to leverage a wealth of molecular expertise derived from knowledge graphs. In this study, we introduce MolFM, a multimodal molecular foundation model designed to facilitate joint representation learning from molecular structures, biomedical texts, and knowledge graphs. We propose cross-modal attention between atoms of molecular structures, neighbors of molecule entities and semantically related texts to facilitate cross-modal comprehension. We provide theoretical analysis that our cross-modal pre-training captures local and global molecular knowledge by minimizing the distance in the feature space between different modalities of the same molecule, as well as molecules sharing similar structures or functions. MolFM achieves state-of-the-art performance on various downstream tasks. On cross-modal retrieval, MolFM outperforms existing models with 12.13% and 5.04% absolute gains under the zero-shot and fine-tuning settings, respectively. Furthermore, qualitative analysis showcases MolFM's implicit ability to provide grounding from molecular substructures and knowledge graphs. Code and models are available on https://github.com/BioFM/OpenBioMed.
연구 동기 및 목표
- 구조적, 텍스트 기반 및 지식 기반 분자 정보를 통합하여 전체적 이해를 달성하려는 동기를 제시한다.
- 2D 분자 그래프, 생물의학 텍스트 및 지식 그래프를 융합하는 다중 모달 사전 학습 프레임워크를 개발한다.
- 원자, 그래프 이웃, 텍스트 토큰을 연결하는 교차 모달 주의 메커니즘을 도입한다.
- 구조-텍스트 대조 학습(STC), 교차 모달 매칭(CMM), 마스킹 언어 모델링(MLM), 지식 그래프 임베딩(KGE)의 네 가지 목표를 제안한다.
- 다양한 모달리티 간 및 그래프 기반의 전역 지식과의 암시적 정렬을 보이는 이론적 근거를 제시한다.
제안 방법
- GraphMVP에서 초기화된 GIN 기반 인코더로 2D 분자 그래프를 인코딩한다.
- KV-PLM에서 초기화된 Transformer 인코더로 생물의학 텍스트를 인코딩한다.
- TransE 기반 인코더로 지식 그래프 엔터티를 인코딩한다.
- 원자/이웃과 텍스트 토큰 간의 교차 주의를 사용하는 다중 모달 트랜스포머로 모달리티를 융합한다.
- 구조-텍스트 대조(STC), 교차 모달 매칭(CMM), 마스킹 언어 모델링(MLM), 지식 그래프 임베딩(KGE)의 네 가지 목표로 사전 학습한다.
- 깊은 거리 학습을 통한 이론적 정당화를 제공하여 모달리티 간 정합성과 비슷한 구조/기능의 분자 간 정합을 보인다.
실험 결과
연구 질문
- RQ1분자 구조, 생물의학 텍스트 및 지식 그래프의 공동 학습이 구조-텍스트 방법을 넘는 분자 표현을 향상시킬 수 있는가?
- RQ2교차 모달 주의가 원자, 이웃 엔터티 및 텍스트 설명 간의 미세한 연결을 효과적으로 모델링하는가?
- RQ3지식 그래프의 전역 지식을 활용하여 하류 분자 작업을 개선할 수 있는가?
- RQ4제안된 사전 학습 목표가 모달리티 간의 견고한 정렬 및 근거 제시를 제공하는가?
주요 결과
| Mode | Model | S-T MRR | S-T R@1 | S-T R@5 | S-T R@10 | T-S MRR | T-S R@1 | T-S R@5 | T-S R@10 |
|---|---|---|---|---|---|---|---|---|---|
| zero-shot | MoMu | 9.89 | 5.08 | 12.82 | 18.93 | 10.33 | 4.90 | 14.48 | 20.69 |
| zero-shot | MolFM | 21.42 | 13.90 | 28.69 | 36.21 | 23.63 | 16.14 | 30.67 | 39.54 |
| fine-tune | SciBERT | 24.98 | 16.32 | 33.91 | 42.64 | 23.92 | 14.97 | 34.05 | 41.74 |
| fine-tune | KV-PLM | 27.41 | 18.35 | 37.15 | 45.43 | 25.97 | 16.55 | 35.85 | 44.75 |
| fine-tune | KV-PLM* | 29.15 | 20.60 | 37.87 | 45.74 | 28.12 | 19.29 | 37.33 | 45.29 |
| fine-tune | GraphMVP | 31.57 | 23.26 | 40.21 | 47.39 | 30.93 | 21.94 | 40.28 | 47.90 |
| fine-tune | MoMu | 34.29 | 24.47 | 45.38 | 53.84 | 34.53 | 24.87 | 44.93 | 54.25 |
| fine-tune | MolFM | 39.56 | 29.76 | 50.53 | 58.63 | 39.34 | 29.39 | 50.26 | 58.49 |
- MolFM은 교차 모달 검색에서 최첨단 성능을 달성했으며, MoMu 대비 제로샷에서 12.13%, 미세 조정에서 5.04%의 절대 이점을 보인다.
- MolFM은 이전 방법과 비교하여 분자 캡션 생성 및 텍스트 기반 분자 생성에서 선두 결과를 보여준다.
- MoleculeNet 특성 예측에서 다중 모달 입력을 사용할 때 평균 절대 이득이 1.55%로 나타난다.
- 변수 제거 연구에서 지식 그래프, 교차 모달 매칭, 원자/이웃 주의를 제거하면 성능이 저하되어 각 구성 요소의 가치가 강조된다.
- 교차 모달 주의 시각화는 부분 구조 및 지식 그래프 맥락에서의 근거 제시 능력을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.