[论文解读] BioMedGPT: Open Multimodal Generative Pre-trained Transformer for BioMedicine
BioMedGPT 引入一个面向生物医学的开放多模态生成型变换器,将分子、蛋白质和自然语言在统一的特征空间中对齐。BioMedGPT-10B 在生物医学问答方面取得出色的表现并对其模型和多模态数据集开源。
Foundation models (FMs) have exhibited remarkable performance across a wide range of downstream tasks in many domains. Nevertheless, general-purpose FMs often face challenges when confronted with domain-specific problems, due to their limited access to the proprietary training data in a particular domain. In biomedicine, there are various biological modalities, such as molecules, proteins, and cells, which are encoded by the language of life and exhibit significant modality gaps with human natural language. In this paper, we introduce BioMedGPT, an open multimodal generative pre-trained transformer (GPT) for biomedicine, to bridge the gap between the language of life and human natural language. BioMedGPT allows users to easily ``communicate'' with diverse biological modalities through free text, which is the first of its kind. BioMedGPT aligns different biological modalities with natural language via a large generative language model, namely, BioMedGPT-LM. We publish BioMedGPT-10B, which unifies the feature spaces of molecules, proteins, and natural language via encoding and alignment. Through fine-tuning, BioMedGPT-10B outperforms or is on par with human and significantly larger general-purpose foundation models on the biomedical QA task. It also demonstrates promising performance in the molecule QA and protein QA tasks, which could greatly accelerate the discovery of new drugs and therapeutic targets. In addition, BioMedGPT-LM-7B is the first large generative language model based on Llama2 in the biomedical domain, therefore is commercial friendly. Both BioMedGPT-10B and BioMedGPT-LM-7B are open-sourced to the research community. In addition, we publish the datasets that are meticulously curated for the alignment of multi-modalities, i.e., PubChemQA and UniProtQA. All the models, codes, and datasets are available at \url{https://github.com/PharMolix/OpenBioMed}.
研究动机与目标
- 使用在生物医学数据上微调的大型语言模型,将生命语言与人类自然语言桥接。
- 通过独立的编码器将文本、分子和蛋白质模态统一并对齐到共享特征空间。
- 在生物医学问答、分子问答和蛋白质问答任务上展示 BioMedGPT-10B,并发布用于模态对齐的数据集。
提出的方法
- 在大规模生物医学语料上微调 Llama2-Chat-7B 以创建 BioMedGPT-LM-7B。
- 通过模态适配器将二维分子图和蛋白质序列与自然语言空间对齐,构建 BioMedGPT-10B。
- 使用 GraphMVP 作为分子编码器,使用 ESM-2 作为蛋白质编码器,并配备独立的模态适配器。
- 使用两个经过筛选的数据集 PubChemQA 和 UniProtQA 进行多模态微调,并使用基于角色的提示来引导模型。
- 冻结 BioMedGPT-LM 参数,训练分子/蛋白质编码器和适配器(类似 mPLUG-owl 的方法),以节省计算资源并避免遗忘。
- 使用生物医学问答基准(MedMCQA、PubMedQA、USMLE)、分子问答(ChEBI-20)和蛋白质问答(UniProtQA)进行评估,报告 BLEU/ROUGE/METEOR 指标。
实验结果
研究问题
- RQ1单一的大型生物医学语言模型能否在多模态(分子、蛋白、文本)上有效对齐和推理?
- RQ2微调和专用的多模态对齐是否能提升生物医学问答任务的性能,超越通用型大语言模型?
- RQ3在统一的多模态空间中,当数据被呈现时,分子问答和蛋白质问答的能力与基线语言模型相比如何?
- RQ4哪些数据集和提示策略最能支持生物医学中的多模态对齐?
主要发现
| 方法 | 设定 | MedMCQA(ID) | PubMedQA(ID) | USMLE(OOD) |
|---|---|---|---|---|
| BioMedGPT-10B | Fine-tuning | 51.4 | 76.1 | 50.4 |
| Llama2-Chat | Fine-tuning | 48.3 | 75.5 | 45.3 |
| PMC-Llama | 0 | 50.5 | 69.5 | 44.7 |
| BioMedGPT-10B (ours) | Fine-tuning | 51.4 | 76.1 | 50.4 |
- BioMedGPT-10B 在生物医学问答基准(MedMCQA、PubMedQA)上达到与显著更大模型相当或最先进的结果,并在域外的 USMLE 上优于基线。
- 在 PubMedQA 上,BioMedGPT-10B 达到接近人类专家的表现。
- 在分子问答中,结合对齐后,BioMedGPT-10B 在 BLEU-2、BLEU-4、ROUGE 指标显著超越 ChatGPT 和 Llama2-7B-Chat。
- 在蛋白质问答中,带有对齐的 BioMedGPT-10B 取得强劲的 BLEU/ROUGE 结果,显著超越基线,显示了蛋白质序列数据与自然语言的有效整合。
- BioMedGPT-LM-7B 是基于 Llama2 的首个生物医学变体生成模型,且已开源;BioMedGPT-10B 亦已开源。
- 作者公布了 PubChemQA 和 UniProtQA 数据集以促进多模态对齐研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。