[論文レビュー] GIT-Mol: A Multi-modal Large Language Model for Molecular Science with Graph, Image, and Text
GIT-Mol は 700M の多モーダル LLM で、グラフ、画像、テキストを統合して分子キャプショニング、テキストベースの分子生成、画像認識、性質予測を改善する。GIT-Former モダリティミキサーと Xmodal 事前学習戦略を用いる。
Large language models have made significant strides in natural language processing, enabling innovative applications in molecular science by processing textual representations of molecules. However, most existing language models cannot capture the rich information with complex molecular structures or images. In this paper, we introduce GIT-Mol, a multi-modal large language model that integrates the Graph, Image, and Text information. To facilitate the integration of multi-modal molecular data, we propose GIT-Former, a novel architecture that is capable of aligning all modalities into a unified latent space. We achieve a 5%-10% accuracy increase in properties prediction and a 20.2% boost in molecule generation validity compared to the baselines. With the any-to-language molecular translation strategy, our model has the potential to perform more downstream tasks, such as compound name recognition and chemical reaction prediction.
研究の動機と目的
- テキストのみの LLM が分子グラフと画像を十分に活用できない点を動機づけ、制約を解決する。
- GIT-Mol を開発し、グラフ・画像・テキストのモダリティを統一潜在空間に統合する。
- GIT-Former を提案し、クロスアテンションでモダリティを融合し Any-to-Language 翻訳を実現する。
- 分子キャプショニング、デノボ生成、画像認識、性質予測の改善を実証する。
- 各モダリティと訓練戦略の寄与を検証するアブレーションと解析を提供する。
提案手法
- GIT-Former を導入し、グラフ・画像・テキストを統一潜在空間に写像するクロスアテンションベースのモダリティミキサー。
- テキストには MolT5、画像には Swin Transformer、グラフには GIN のモダリティ固有エンコーダを用い、生成タスクには MolT5 デコーダを使用。
- Xmodal-Text Matching (XTM) と Xmodal-Text Contrastive Learning (XTC) でモダリティを整合させる事前学習を行う。
- ファインチューニング時にモダリティ翻訳タスクのため Any-to-Language プ prompting を適用する。
- MoleculeNet-property タスクでファインチューニングし、言語ベースの出力にはプロンプト調整を用いる。

実験結果
リサーチクエスチョン
- RQ1GIT-Former は分子タスクのためにグラフ・画像・テキストモダリティを共有潜在空間へ効果的に整列できるか?
- RQ2複数モダリティ入力は単一モダリティと比べて分子キャプショニング、画像ベース認識、SMILES 生成を改善するか?
- RQ3XTM と XTC 訓練戦略はクロスモーダル整合性と下流性能にどのような影響を与えるか?
- RQ4プロンプト学習は Any-to-Language モダリティ翻訳と性質予測にどのような影響を与えるか?
- RQ5GIT-Mol による分子性質予測精度と分子生成の妥当性の向上はどれくらいか?
主な発見
| Model | BLEU-2 | BLEU-4 | ROUGh-1 | ROUGh-2 | ROUGh-L | METEOR |
|---|---|---|---|---|---|---|
| SciBERT | 0.184 | 0.113 | 0.412 | 0.327 | 0.397 | 0.367 |
| MolT5-base | 0.316 | 0.247 | 0.572 | 0.480 | 0.545 | 0.529 |
| GIT-Mol(SMILES) | 0.264 | 0.176 | 0.477 | 0.374 | 0.451 | 0.430 |
| GIT-Mol(Graph) | 0.290 | 0.210 | 0.540 | 0.445 | 0.512 | 0.491 |
| GIT-Mol(XTM) | 0.264 | 0.187 | 0.521 | 0.421 | 0.494 | 0.471 |
| GIT-Mol op | 0.312 | 0.237 | 0.556 | 0.468 | 0.535 | 0.525 |
| GIT-Mol | 0.352 | 0.263 | 0.575 | 0.485 | 0.560 | 0.533 |
- GIT-Mol は単一モダリティのベースラインよりキャプショニング性能が高い。
- グラフベースの変種は通常 SMILES よりキャプショニング指標で優れており、複数モダリティは両方を上回る。
- アブレーションにより、複数モダリティは単一モダリティより 10–15% の改善を示す。
- デノボ生成では GIT-Mol-captions+MolT5 が妥当性 (0.928) を高く、類似性指標も競合的。
- クロスモーダル事前学習 (XTM 優先、続いて XTC) とプロンプト学習は結果に有意に影響する。
- GIT-Mol はクロスモーダル分子生成と性質予測タスクでベースラインを上回る。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。