[论文解读] MiniGPT-Med: Large Language Model as a General Interface for Radiology Diagnosis
MiniGPT-Med 是一个基于大型语言模型(LLaMA-2)的视觉-语言模型,配备冻结的视觉编码器(EVA)和线性投影层,能够生成医疗报告、检测疾病以及进行医学 VQA,覆盖 X 射线、CT 和 MRI,在医疗报告生成方面达到最先进的结果,并在定位与非定位任务上表现出色。
Recent advancements in artificial intelligence (AI) have precipitated significant breakthroughs in healthcare, particularly in refining diagnostic procedures. However, previous studies have often been constrained to limited functionalities. This study introduces MiniGPT-Med, a vision-language model derived from large-scale language models and tailored for medical applications. MiniGPT-Med demonstrates remarkable versatility across various imaging modalities, including X-rays, CT scans, and MRIs, enhancing its utility. The model is capable of performing tasks such as medical report generation, visual question answering (VQA), and disease identification within medical imagery. Its integrated processing of both image and textual clinical data markedly improves diagnostic accuracy. Our empirical assessments confirm MiniGPT-Med's superior performance in disease grounding, medical report generation, and VQA benchmarks, representing a significant step towards reducing the gap in assisting radiology practice. Furthermore, it achieves state-of-the-art performance on medical report generation, higher than the previous best model by 19\% accuracy. MiniGPT-Med promises to become a general interface for radiology diagnoses, enhancing diagnostic efficiency across a wide range of medical imaging applications.
研究动机与目标
- 需要一个多功能、以放射科为中心的多模态模型,能够处理定位和非定位任务的动机。
- 提出一个统一的架构,利用大型语言模型作为医疗视觉-语言任务的通用接口。
- 在医疗报告生成方面展示最先进的性能,在疾病检测和 VQA 方面展现有竞争力的结果。
- 展示该模型在 X 光、CT 扫描和 MRI 上的适用性,以及生成详细临床报告的能力。
提出的方法
- 将 EVA 作为冻结的视觉主干来提取放射影像特征。
- 采用 MiniGPT-v2 架构,配备线性投影层将视觉标记映射到 LLaMA-2 空间。
- 结合带有 [INST] 标记的任务特定提示和六个任务标识,以引导定位与非定位任务。
- 以文本化方式将定位边界框表示为在 [0,100] 范围内的归一化坐标,以便与 LLM 集成。
- 对 LLaMA-2 模型进行 LoRA 微调,同时保持视觉编码器冻结。
- 在没有数据增强的情况下,在 A100 GPU 上使用 100 个 epoch 训练 124,276 张医疗影像(448x448),采用交叉熵损失和 AdamW 优化器。

实验结果
研究问题
- RQ1单一、统一的模型是否能够在多种放射科模态下执行医疗报告生成、疾病检测和医学 VQA?
- RQ2通过统一的 LLM 接口整合视觉和文本临床数据,是否相较于专门化或通用基线提高诊断准确性和定位能力?
- RQ3在该架构下,MIMIC-CXR 上的医疗报告生成可达到的最先进性能是多少?
- RQ4模型在对外部放射科基准的零样本疾病检测和 VQA 上的泛化能力如何?
主要发现
| 模型类型 | MIMIC-CXR BERT-Sim | CheXbert-Sim |
|---|---|---|
| Ours (MiniGPT-Med) | 72.0 | 30.1 |
- MiniGPT-Med 在 MIMIC-CXR 的医疗报告生成方面达到最先进的性能,在 BERT-Sim 上超越最佳基线 19.0%,在 CheXbert-Sim 上超越最佳基线 5.2%。
- 该模型在 RSNA 的疾病定位方面展现出有竞争力的 IoU,达到 0.26,接近专科模型。
- 在医学 VQA 方面,MiniGPT-Med 在 RadVQA 上达到 0.58,优于像 MiniGPT-v2 与 OpenFlamingo 等通用模型,并接近专科 MedVIN 的水平(0.62)。
- 放射科专家评估显示,生成的报告中有 76% 被评为高质量,19% 为中等,5% 为较差。
- 在报告生成、疾病检测和 VQA 三个方面,MiniGPT-Med 相对于专科和通用基线显示出强劲的性能,表明其在定位与非定位任务处理方面具备有效性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。