QUICK REVIEW

[论文解读] Qilin-Med-VL: Towards Chinese Large Vision-Language Model for General Healthcare

Junling Liu, Ziming Wang|arXiv (Cornell University)|Oct 27, 2023

Multimodal Machine Learning Applications被引用 10

一句话总结

Qilin-Med-VL 是首个将 ViT 图像编码器与中文大语言模型结合在一起的中文医学视觉语言模型，通过 ChiMed-VL 的两阶段课程训练，以对齐视觉-文本和指令遵循能力，适用于一般医疗保健任务。

ABSTRACT

Large Language Models (LLMs) have introduced a new era of proficiency in comprehending complex healthcare and biomedical topics. However, there is a noticeable lack of models in languages other than English and models that can interpret multi-modal input, which is crucial for global healthcare accessibility. In response, this study introduces Qilin-Med-VL, the first Chinese large vision-language model designed to integrate the analysis of textual and visual data. Qilin-Med-VL combines a pre-trained Vision Transformer (ViT) with a foundational LLM. It undergoes a thorough two-stage curriculum training process that includes feature alignment and instruction tuning. This method enhances the model's ability to generate medical captions and answer complex medical queries. We also release ChiMed-VL, a dataset consisting of more than 1M image-text pairs. This dataset has been carefully curated to enable detailed and comprehensive interpretation of medical data using various types of images.

研究动机与目标

通过构建中文医疗视觉语言模型，解决医学 AI 的语言和模态障碍。
创建 ChiMed-VL，一套用于对齐和指令微调的大型中文医疗多模态数据集。
开发两阶段课程（特征对齐和指令微调）以提升医学视觉语言能力。
在医学视觉语言任务和 VQA 数据集上对 Qilin-Med-VL 与基线进行评估。

提出的方法

架构将 Chinese-LLaMA2-13B-Chat 作为基础 LLM、一个预训练的 ViT 图像编码器以及一个视觉语言特征适配器相结合。
两阶段课程训练：（1）使用图像-文字描述任务在编码器和适配器保持冻结的情况下进行视觉-语言特征对齐；（2）在冻结图像编码器的同时，使用图像-问题-答案数据进行指令微调。
ChiMed-VL 数据集构建分为两个子集：对齐（580,014 图像-文本对）和指令微调（469,441 对 QA）。
通过 GPT-3.5 将数据翻译为中文并进行质量控制，随后进行数据预处理，将多图像输入拼接并将数据格式化为对话提示。
实现使用 8x A100 GPU；训练细节包括各阶段的批量大小和学习率。

实验结果

研究问题

RQ1如何为中文医疗保健有效构建一个能够处理多种医学影像模态的大型视觉语言模型？
RQ2两阶段课程（对齐和指令微调）是否能提升中文VL模型的医学VQA和描述能力？
RQ3中文医疗VL数据集（ChiMed-VL）对模型对齐和指令遵循性能有何影响？
RQ4Qilin-Med-VL 与面向英文或中文的医学基线在视觉医学任务上有何比较？

主要发现

Qilin-Med-VL 在医学 VQA 任务和超声、X 射线、MRI 等成像案例上，与若干基线相比表现具有竞争力。
在呈现的病例分析中，该模型在精准病灶定位方面优于某些基线。
ChiMed-VL 提供超过 580k 的图像-文本对用于对齐，以及 469k 的 QA 对用于指令微调，使中文多模态医疗解释成为可能。
两阶段课程在不更新预训练的图像编码器的情况下，提升了视觉-语言对齐和指令遵循能力。
这种方法凸显了中文VL模型在一般医疗保健中的可行性和益处，解决语言与模态包容性问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。