Skip to main content
QUICK REVIEW

[論文レビュー] GIT-Mol: A Multi-modal Large Language Model for Molecular Science with Graph, Image, and Text

Pengfei Liu, Yiming Ren|arXiv (Cornell University)|Aug 14, 2023
Computational Drug Discovery Methods参考文献 47被引用数 8
ひとこと要約

GIT-Mol は 700M の多モーダル LLM で、グラフ、画像、テキストを統合して分子キャプショニング、テキストベースの分子生成、画像認識、性質予測を改善する。GIT-Former モダリティミキサーと Xmodal 事前学習戦略を用いる。

ABSTRACT

Large language models have made significant strides in natural language processing, enabling innovative applications in molecular science by processing textual representations of molecules. However, most existing language models cannot capture the rich information with complex molecular structures or images. In this paper, we introduce GIT-Mol, a multi-modal large language model that integrates the Graph, Image, and Text information. To facilitate the integration of multi-modal molecular data, we propose GIT-Former, a novel architecture that is capable of aligning all modalities into a unified latent space. We achieve a 5%-10% accuracy increase in properties prediction and a 20.2% boost in molecule generation validity compared to the baselines. With the any-to-language molecular translation strategy, our model has the potential to perform more downstream tasks, such as compound name recognition and chemical reaction prediction.

研究の動機と目的

  • テキストのみの LLM が分子グラフと画像を十分に活用できない点を動機づけ、制約を解決する。
  • GIT-Mol を開発し、グラフ・画像・テキストのモダリティを統一潜在空間に統合する。
  • GIT-Former を提案し、クロスアテンションでモダリティを融合し Any-to-Language 翻訳を実現する。
  • 分子キャプショニング、デノボ生成、画像認識、性質予測の改善を実証する。
  • 各モダリティと訓練戦略の寄与を検証するアブレーションと解析を提供する。

提案手法

  • GIT-Former を導入し、グラフ・画像・テキストを統一潜在空間に写像するクロスアテンションベースのモダリティミキサー。
  • テキストには MolT5、画像には Swin Transformer、グラフには GIN のモダリティ固有エンコーダを用い、生成タスクには MolT5 デコーダを使用。
  • Xmodal-Text Matching (XTM) と Xmodal-Text Contrastive Learning (XTC) でモダリティを整合させる事前学習を行う。
  • ファインチューニング時にモダリティ翻訳タスクのため Any-to-Language プ prompting を適用する。
  • MoleculeNet-property タスクでファインチューニングし、言語ベースの出力にはプロンプト調整を用いる。
Figure 1: An overview of GIT-Mol . (a) Internal Information , including sequence and graph structure representations, emphasizes inherent chemical properties and simple topology; (b) External Information , e.g., images and text descriptions, provide richer details and help the human understanding; (
Figure 1: An overview of GIT-Mol . (a) Internal Information , including sequence and graph structure representations, emphasizes inherent chemical properties and simple topology; (b) External Information , e.g., images and text descriptions, provide richer details and help the human understanding; (

実験結果

リサーチクエスチョン

  • RQ1GIT-Former は分子タスクのためにグラフ・画像・テキストモダリティを共有潜在空間へ効果的に整列できるか?
  • RQ2複数モダリティ入力は単一モダリティと比べて分子キャプショニング、画像ベース認識、SMILES 生成を改善するか?
  • RQ3XTM と XTC 訓練戦略はクロスモーダル整合性と下流性能にどのような影響を与えるか?
  • RQ4プロンプト学習は Any-to-Language モダリティ翻訳と性質予測にどのような影響を与えるか?
  • RQ5GIT-Mol による分子性質予測精度と分子生成の妥当性の向上はどれくらいか?

主な発見

ModelBLEU-2BLEU-4ROUGh-1ROUGh-2ROUGh-LMETEOR
SciBERT0.1840.1130.4120.3270.3970.367
MolT5-base0.3160.2470.5720.4800.5450.529
GIT-Mol(SMILES)0.2640.1760.4770.3740.4510.430
GIT-Mol(Graph)0.2900.2100.5400.4450.5120.491
GIT-Mol(XTM)0.2640.1870.5210.4210.4940.471
GIT-Mol op0.3120.2370.5560.4680.5350.525
GIT-Mol0.3520.2630.5750.4850.5600.533
  • GIT-Mol は単一モダリティのベースラインよりキャプショニング性能が高い。
  • グラフベースの変種は通常 SMILES よりキャプショニング指標で優れており、複数モダリティは両方を上回る。
  • アブレーションにより、複数モダリティは単一モダリティより 10–15% の改善を示す。
  • デノボ生成では GIT-Mol-captions+MolT5 が妥当性 (0.928) を高く、類似性指標も競合的。
  • クロスモーダル事前学習 (XTM 優先、続いて XTC) とプロンプト学習は結果に有意に影響する。
  • GIT-Mol はクロスモーダル分子生成と性質予測タスクでベースラインを上回る。
Figure 2: Study case of Molecule Caption . The GIT-Mol model exhibits precise chemical characterization, aligning closely with ground truth information.
Figure 2: Study case of Molecule Caption . The GIT-Mol model exhibits precise chemical characterization, aligning closely with ground truth information.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。