[论文解读] Woodpecker: Hallucination Correction for Multimodal Large Language Models
Woodpecker 是一个无需训练的框架,它通过五阶段管线对多模态语言模型输出进行后处理,以纠正图像相关幻觉,具有可解释性,并附带边界框证据。
Hallucination is a big shadow hanging over the rapidly evolving Multimodal Large Language Models (MLLMs), referring to the phenomenon that the generated text is inconsistent with the image content. In order to mitigate hallucinations, existing studies mainly resort to an instruction-tuning manner that requires retraining the models with specific data. In this paper, we pave a different way, introducing a training-free method named Woodpecker. Like a woodpecker heals trees, it picks out and corrects hallucinations from the generated text. Concretely, Woodpecker consists of five stages: key concept extraction, question formulation, visual knowledge validation, visual claim generation, and hallucination correction. Implemented in a post-remedy manner, Woodpecker can easily serve different MLLMs, while being interpretable by accessing intermediate outputs of the five stages. We evaluate Woodpecker both quantitatively and qualitatively and show the huge potential of this new paradigm. On the POPE benchmark, our method obtains a 30.66%/24.33% improvement in accuracy over the baseline MiniGPT-4/mPLUG-Owl. The source code is released at https://github.com/BradyFU/Woodpecker.
研究动机与目标
- 提出在不重新训练的前提下,缓解多模态大语言模型(MLLMs)中的视觉幻觉的必要性。
- 提出一个无需训练的即插即用修正管道,在诊断和修正幻觉的同时提供基于证据的定位。
- 通过暴露中间输出和边界框证据以便验证来展示可解释性。
- 在既定基准(POPE、MME、LLaVA-QA90)上评估该框架,并与基线 MLLMs 进行增益对比。
提出的方法
- 五阶段修正管线: (1) 关键概念提取以识别生成文本中提及的主要对象; (2) 针对对象及属性进行问题表述; (3) 使用视觉模型对 QA 提示进行视觉知识验证以回答; (4) 生成视觉陈述,基于对象级和属性级陈述建立结构化视觉知识库; (5) 幻觉修正:LLM 在视觉知识库的引导下修订回答,并附上边界框作为证据。
- 基于定位的组件:开集对象检测器(Grounding DINO)用于对象存在性/数量,和 VQA 模型(BLIP-2-FlanT5 XXL)用于属性问题。
- LLM 驱动:使用 GPT-3.5-turbo 进行关键概念提取、问题表述和最终修正;提示设计用于可解释性并保留边界框证据。
- 无需训练的设计:依赖现成模型(不对 MLLM 进行重新训练),以实现与不同 MLLMs 的便捷集成。
- 证据增强:在修正输出中包含边界框,以便进行可视化事实核查。
实验结果
研究问题
- RQ1在不重新训练的前提下,是否可以通过一个无需训练的即插即用框架减少 MLLMs 的对象级和属性级幻觉?
- RQ2Woodpecker 在不同 MLLMs 和数据集(POPE、MME、LLaVA-QA90)上在准确性和细节程度方面的表现如何?
- RQ3边界框等定位证据在多大程度上提高了修正结果的可解释性和可验证性?
主要发现
- 在 POPE 上,Woodpecker 将基线 MiniGPT-4 与 mPLUG-Owl 的准确性分别提升了 30.66% 和 24.33%。
- 在 POPE 上,Woodpecker 将 MiniGPT-4 和 mPLUG-Owl 的准确性从 54.67%/62% 提升到 85.33%/86.33%。
- 在 MME 上,对象级修正带来显著分数提升,范围从对 LLaVA 的 +65 到对 MiniGPT-4 的 +101.66,属性级提升(如颜色)在修正后显著改善。
- 在 LLaVA-QA90 结合 GPT-4V 的评估中,修正输出获得更高的准确性和细节程度,例如在修正条件下,模型的准确性和细节程度的提升示例:LLaVA 的准确性从 7.1 提升到 7.8,细节程度从 7.1 提升到 8.6。
- 该框架在测试的 MME 场景中的修正准确率为 79.2%,且遗漏率与错误修正率相对较低。
- 边界框证据提升了回答的细节,在 GPT-4V 辅助评估中贡献了更高的细节程度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。