[论文解读] Detecting and Evaluating Medical Hallucinations in Large Vision Language Models
本文提出 Med-HallMark,一种医疗多模态幻觉基准,以及 MediHall Score 和 MediHallDetector,用于检测、分类和评估医疗任务中对 LVLM 的幻觉。
Large Vision Language Models (LVLMs) are increasingly integral to healthcare applications, including medical visual question answering and imaging report generation. While these models inherit the robust capabilities of foundational Large Language Models (LLMs), they also inherit susceptibility to hallucinations-a significant concern in high-stakes medical contexts where the margin for error is minimal. However, currently, there are no dedicated methods or benchmarks for hallucination detection and evaluation in the medical field. To bridge this gap, we introduce Med-HallMark, the first benchmark specifically designed for hallucination detection and evaluation within the medical multimodal domain. This benchmark provides multi-tasking hallucination support, multifaceted hallucination data, and hierarchical hallucination categorization. Furthermore, we propose the MediHall Score, a new medical evaluative metric designed to assess LVLMs' hallucinations through a hierarchical scoring system that considers the severity and type of hallucination, thereby enabling a granular assessment of potential clinical impacts. We also present MediHallDetector, a novel Medical LVLM engineered for precise hallucination detection, which employs multitask training for hallucination detection. Through extensive experimental evaluations, we establish baselines for popular LVLMs using our benchmark. The findings indicate that MediHall Score provides a more nuanced understanding of hallucination impacts compared to traditional metrics and demonstrate the enhanced performance of MediHallDetector. We hope this work can significantly improve the reliability of LVLMs in medical applications. All resources of this work will be released soon.
研究动机与目标
- 通过解决医疗视觉语言输出中的幻觉,推动可靠的医疗 LVLM 的发展。
- 提供一个领域特定的基准,用于检测和评估医疗幻觉。
- 开发层次化分类和度量标准,以衡量幻觉的临床影响。
- 创建一个检测器模型,用于检测并对医疗 LVLM 输出中的幻觉进行分类。
- 在医疗 VQA 和成像报告生成任务中提供基线和洞见。
提出的方法
- 引入 Med-HallMark,具备多任务幻觉支持、多方面数据和分层分类。
- 定义五级医疗幻觉分类:灾难性、关键、属性、提示诱发、次要,以及正确陈述。
- 提出 MediHall Score,为每种幻觉类型分配数值分数,并对 Med-VQA 和 IRG 任务进行聚合。
- 开发 MediHallDetector,这是一个基于 LLaVA 的多模态检测器,具有双层分类器,并在医疗图像-文本数据以及 Med-HallMark 数据上进行微调。
- 使用单阶段有监督微调,结合多数据源来训练 MediHallDetector。

实验结果
研究问题
- RQ1我们如何在医疗 VQA 和成像报告生成任务中,可靠地检测和分类 LVLM 输出中的医疗幻觉?
- RQ2领域特定的基准和评分指标是否比传统 NLP 指标更能反映幻觉的临床影响?
- RQ3相比通用 LLM 评估,专业化检测器是否能提高在识别幻觉类型方面的准确性和一致性?
- RQ4在提出的 Med-HallMark 基准上,当前的医疗 LVLM 能达到怎样的基线,MediHall Score 与 MediHallDetector 相对于它们的表现如何?
主要发现
- Med-HallMark 提供了一个综合基准,支持多任务、具备多方面数据,并对医疗 LVLM 进行分层幻觉分类。
- MediHall Score 提供了一个细致、基于层级的幻觉评估,与传统指标相比,更能反映临床影响。
- MediHallDetector 相对于人类偏好幻觉等级,在检测性能和评估一致性方面优于 GPT-3.5 和 GPT-4 基线。
- 在 Med-VQA 与 IRG 任务中,传统指标常常无法捕捉事实正确性或幻觉程度,而 MediHall Score 与幻觉严重程度的对应性更好。
- MediHallDetector 在与人类偏好的一致性方面更高,推断时间也比基于 LLM 的评估方法更快。
- 消融研究表明,在单阶段微调阶段混合多样任务数据,能获得 MediHallDetector 的最佳性能。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。