[论文解读] MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities
MM-Vet 是一个基准,用来评估大型多模态模型在集成视觉-语言任务上,使用基于 LLM 的评估者,覆盖由 6 个核心 VL 能力构建的 16 个任务。
We propose MM-Vet, an evaluation benchmark that examines large multimodal models (LMMs) on complicated multimodal tasks. Recent LMMs have shown various intriguing abilities, such as solving math problems written on the blackboard, reasoning about events and celebrities in news images, and explaining visual jokes. Rapid model advancements pose challenges to evaluation benchmark development. Problems include: (1) How to systematically structure and evaluate the complicated multimodal tasks; (2) How to design evaluation metrics that work well across question and answer types; and (3) How to give model insights beyond a simple performance ranking. To this end, we present MM-Vet, designed based on the insight that the intriguing ability to solve complicated tasks is often achieved by a generalist model being able to integrate different core vision-language (VL) capabilities. MM-Vet defines 6 core VL capabilities and examines the 16 integrations of interest derived from the capability combination. For evaluation metrics, we propose an LLM-based evaluator for open-ended outputs. The evaluator enables the evaluation across different question types and answer styles, resulting in a unified scoring metric. We evaluate representative LMMs on MM-Vet, providing insights into the capabilities of different LMM system paradigms and models.
研究动机与目标
- 界定六项核心的视觉-语言能力(识别、OCR、知识、语言生成、空间感知、数学)。
- 构建 16 个综合任务,需结合这些能力以模拟现实世界场景。
- 引入基于 LLM 的评估者,对多种类型的问题中的开放式模型输出进行评分。
- 对有代表性的端到端 LMMs 和使用 LLM 工具的系统进行基准测试,以揭示不同范式下的优势与劣势。
- 提供关于架构、数据与微调如何影响整合多模态能力的见解。
提出的方法
- 界定六项核心 VL 能力与 16 种整合,形成 MM-Vet 任务。
- 整理 200 张图像和 218 个问题,附有覆盖开放式输出的真值注释。
- 使用基于 GPT-4 的少-shot 评估者为每个样本分配 0–1 的正确性分数。
- 使用所述聚合(如 S、S_c)计算总体分数和按能力的分数。
- 在 Bard 集与非 Bard 集之间比较端到端微调的 LMMs 与使用 LLM 工具的系统。
- 分析视觉编码器、LLM 大小和微调数据对性能的影响。
实验结果
研究问题
- RQ1综合 VL 能力如何在多样化任务中与总体 LMM 性能相关?
- RQ2系统范式(端到端 vs. 基于 LLM 工具)在各能力和整合中的强项有何不同?
- RQ3视觉骨干、语言模型和微调数据对 MM-Vet 结果的影响是什么?
- RQ4基于 LLM 的评估者是否能够在多样的回答风格和问题类型上提供统一、可扩展的度量?
主要发现
- LLaVA-13B (LLaMA-2) 在若干模型中获得最高的识别分数,突出显示了更大规模的 LLM 和视觉骨干的好处。
- MM-ReAct-GPT-4 在 OCR 和数学方面借助其外部工具表现出色,表明在结构化任务中工具使用的价值。
- LLaMA-Adapter v2-7B 由于大量的微调数据,在若干能力上表现出色。
- MM-ReAct-GPT-4 在多种能力整合方面通常领先,尤其是在将 OCR、空间感知与数学结合时。
- Bard 集结果显示 Bard 在 Bard 能处理图像的子集上取得最高总分,MM-ReAct-GPT-4 在若干类别上也表现强劲。
- 基于 LLM 的评估者使开放式输出和多样化答案风格的统一评分成为可能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。