QUICK REVIEW

[论文解读] HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

Wan‐Wan Lin, Wenqiao Zhang|ArXiv.org|Feb 14, 2025

Topic Modeling被引用 3

一句话总结

HealthGPT 是一个统一的医疗视觉语言模型，采用异质知识自适应方法（H-LoRA）与分层视觉感知，将医疗视觉理解与生成结合在一起，在 VL-Health 上训练，在医疗多模态任务中取得强劲结果。

ABSTRACT

We present HealthGPT, a powerful Medical Large Vision-Language Model (Med-LVLM) that integrates medical visual comprehension and generation capabilities within a unified autoregressive paradigm. Our bootstrapping philosophy is to progressively adapt heterogeneous comprehension and generation knowledge to pre-trained large language models (LLMs). This is achieved through a novel heterogeneous low-rank adaptation (H-LoRA) technique, which is complemented by a tailored hierarchical visual perception approach and a three-stage learning strategy. To effectively learn the HealthGPT, we devise a comprehensive medical domain-specific comprehension and generation dataset called VL-Health. Experimental results demonstrate exceptional performance and scalability of HealthGPT in medical visual unified tasks. Our project can be accessed at https://github.com/DCDmllm/HealthGPT.

研究动机与目标

推动在医疗场景中同时处理理解与生成的统一医疗视觉语言模型的需求。
开发参数高效的自适应框架（H-LoRA），将理解与生成的学习解耦。
设计分层视觉感知策略，为不同任务定制视觉输入。
整理一个专门的多任务医疗数据集（VL-Health），覆盖理解与生成任务。
演示在多项指标上相对于最先进的医疗与统一 LVLM 的可扩展性与有效性。

提出的方法

将 HealthGPT 作为具有离散文本和视觉令牌的统一自回归模型引入。
提出异质低秩自适应（H-LoRA），在独立插件中存储任务特定知识并动态路由信息。
采用分层视觉感知（HVP），在生成与理解之间对具体粒度的视觉特征进行选择。
采用三阶段学习策略（TLS），在适当冻结某些组件的同时训练 H-LoRA 插件、融合嵌入和输出头。
使用基于 VQGAN 的离散视觉令牌策略，在大模型框架内实现视-觉重建与图像生成。
整理 VL-Health，这是一个领域特定数据集，结合七个理解任务与五个生成任务，用于医疗 LVLM 训练。

实验结果

研究问题

RQ1一个统一的医疗 LVLM 是否能在单一自回归框架内有效整合视觉理解与生成？
RQ2异质知识自适应（H-LoRA）是否能缓解医疗数据中理解与生成学习之间的冲突？
RQ3分层视觉感知是否提高不同医疗视觉语言任务的效率与表现？
RQ4与最先进的医疗 LVLMs 与统一模型相比，HealthGPT 在医疗视觉任务上的表现如何？
RQ5三阶段训练策略对下游医疗任务有何影响？

主要发现

HealthGPT 在医疗视觉理解任务上优于面向医疗的专用 LVLMs 与通用统一模型。
使用较小基模型（如 HealthGPT-M3，参数为 3.8B）的 HealthGPT 在医疗下游任务上超过若干更大规模的统一模型。
三阶段学习策略结合 H-LoRA 在多任务表现上持续优于混合训练，并降低任务冲突导致的性能下降。
分层视觉感知分析显示，抽象粒度的特征有助于理解，而具体粒度的特征有利于生成。
使用四个专家与特定秩设置的 H-LoRA 相比其他 PEFT 方法（LoRA、MoELoRA）在训练时间更短、性能更优。
HealthGPT 展示出强烈的定性能力，包括在不同指令下从报告生成到 CXR 的生成能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。