[論文レビュー] MolFM: A Multimodal Molecular Foundation Model
MolFM は分子構造、バイオメディカル文献、知識グラフからの表現をクロスモーダル注意機構で学習し、クロスモーダル検索、キャプション生成、生成、特性予測の最先端結果を達成します。
Molecular knowledge resides within three different modalities of information sources: molecular structures, biomedical documents, and knowledge bases. Effective incorporation of molecular knowledge from these modalities holds paramount significance in facilitating biomedical research. However, existing multimodal molecular foundation models exhibit limitations in capturing intricate connections between molecular structures and texts, and more importantly, none of them attempt to leverage a wealth of molecular expertise derived from knowledge graphs. In this study, we introduce MolFM, a multimodal molecular foundation model designed to facilitate joint representation learning from molecular structures, biomedical texts, and knowledge graphs. We propose cross-modal attention between atoms of molecular structures, neighbors of molecule entities and semantically related texts to facilitate cross-modal comprehension. We provide theoretical analysis that our cross-modal pre-training captures local and global molecular knowledge by minimizing the distance in the feature space between different modalities of the same molecule, as well as molecules sharing similar structures or functions. MolFM achieves state-of-the-art performance on various downstream tasks. On cross-modal retrieval, MolFM outperforms existing models with 12.13% and 5.04% absolute gains under the zero-shot and fine-tuning settings, respectively. Furthermore, qualitative analysis showcases MolFM's implicit ability to provide grounding from molecular substructures and knowledge graphs. Code and models are available on https://github.com/BioFM/OpenBioMed.
研究の動機と目的
- 構造情報、テキスト情報、知識ベース情報を統合して総合的な理解を目指す動機付け。
- 2D分子グラフ、バイオメディカル文献、知識グラフを統合するマルチモーダル事前学習フレームワークを開発。
- 原子、グラフ隣接ノード、テキストトークンを結ぶクロスモーダル注意機構を導入。
- 構造-テキスト対比、クロスモーダルマッチング、マスクド言語モデリング、知識グラフ埋め込み Objective を提案。
- モーダル間およびグラフベースのグローバル知識との暗黙の整列を示す理論的根拠を提供。
提案手法
- GraphMVP から初期化された GIN ベースのエンコーダで 2D 分子グラフをエンコード。
- KV-PLM から初期化された Transformer エンコーダでバイオメディカル文献をエンコード。
- TransE ベースのエンコーダで知識グラフのエンティティをエンコード。
- 原子/隣接ノードとテキストトークンの間にクロスアテンションを用いるマルチモーダルトランスフォーマーでモダリティを融合。
- 4 つの目的関数で事前学習:構造-テキスト対照(STC)、クロスモーダルマッチング(CMM)、マスクド言語モデリング(MLM)、知識グラフ埋め込み(KGE)。
- 深層距離学習を通じてモーダル間および類似構造/機能を持つ分子間の整列を理論的に正当化。
実験結果
リサーチクエスチョン
- RQ1分子構造、バイオメディカル文献、知識グラフの共同学習は、構造-テキスト法を超える分子表現を生み出せるか。
- RQ2クロスモーダル注意は原子、隣接エンティティ、テキスト記述間の細粒度接続を効果的にモデル化できるか。
- RQ3知識グラフからのグローバル知識を下流の分子タスク向上に活用できるか。
- RQ4提案された事前学習目的はモダリティ間の堅牢な整列とグラウンディングを生み出すか。
主な発見
| Mode | Model | S-T MRR | S-T R@1 | S-T R@5 | S-T R@10 | T-S MRR | T-S R@1 | T-S R@5 | T-S R@10 |
|---|---|---|---|---|---|---|---|---|---|
| zero-shot | MoMu | 9.89 | 5.08 | 12.82 | 18.93 | 10.33 | 4.90 | 14.48 | 20.69 |
| zero-shot | MolFM | 21.42 | 13.90 | 28.69 | 36.21 | 23.63 | 16.14 | 30.67 | 39.54 |
| fine-tune | SciBERT | 24.98 | 16.32 | 33.91 | 42.64 | 23.92 | 14.97 | 34.05 | 41.74 |
| fine-tune | KV-PLM | 27.41 | 18.35 | 37.15 | 45.43 | 25.97 | 16.55 | 35.85 | 44.75 |
| fine-tune | KV-PLM* | 29.15 | 20.60 | 37.87 | 45.74 | 28.12 | 19.29 | 37.33 | 45.29 |
| fine-tune | GraphMVP | 31.57 | 23.26 | 40.21 | 47.39 | 30.93 | 21.94 | 40.28 | 47.90 |
| fine-tune | MoMu | 34.29 | 24.47 | 45.38 | 53.84 | 34.53 | 24.87 | 44.93 | 54.25 |
| fine-tune | MolFM | 39.56 | 29.76 | 50.53 | 58.63 | 39.34 | 29.39 | 50.26 | 58.49 |
- MolFM はクロスモーダル検索で最先端の性能を達成し、MoMu に対してゼロショットで 12.13%、ファインチューニングで 5.04% の絶対的な改善を示す。
- MolFM は分子キャプション生成およびテキストベースの分子生成で従来法を上回る結果を示す。
- MoleculeNet の特性予測では、マルチモーダル入力使用時に平均絶対改善率 1.55% を示す。
- アブレーション研究により、知識グラフの除去、クロスモーダルマッチングの削除、原子/隣接注意の削除は性能を低下させ、それぞれの要素の価値を示す。
- クロスモーダル注意の可視化は、サブ構造および知識グラフ文脈でのグラウンディング能力を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。