[论文解读] MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark
引入 MLLM 作为评判标准基准,以评估多模态大模型在评分评估、对比排序和批量排名等方面的判定;使用 14 个数据集和 4,414 对图像-指令对;发现 GPT-4V 与人类判断的对齐度最高,而其他模型存在偏见和幻觉。
Multimodal Large Language Models (MLLMs) have gained significant attention recently, showing remarkable potential in artificial general intelligence. However, assessing the utility of MLLMs presents considerable challenges, primarily due to the absence of multimodal benchmarks that align with human preferences. Drawing inspiration from the concept of LLM-as-a-Judge within LLMs, this paper introduces a novel benchmark, termed MLLM-as-a-Judge, to assess the ability of MLLMs in assisting judges across diverse modalities, encompassing three distinct tasks: Scoring Evaluation, Pair Comparison, and Batch Ranking. Our study reveals that, while MLLMs demonstrate remarkable human-like discernment in Pair Comparison, there is a significant divergence from human preferences in Scoring Evaluation and Batch Ranking. Furthermore, a closer examination reveals persistent challenges in the judgment capacities of LLMs, including diverse biases, hallucinatory responses, and inconsistencies in judgment, even in advanced models such as GPT-4V. These findings emphasize the pressing need for enhancements and further research efforts to be undertaken before regarding MLLMs as fully reliable evaluators. In light of this, we advocate for additional efforts dedicated to supporting the continuous development within the domain of MLLM functioning as judges. The code and dataset are publicly available at our project homepage: \url{https://mllm-judge.github.io/}.
研究动机与目标
- 激发并定义一个多模态评判基准,使 MLLMs 的评判与人类偏好保持一致。
- 整理数据集,并在跨越多样模态的三项评判任务上评估主流 MLLMs。
- 描述 MLLM 判定中的偏见、幻觉和一致性问题。
- 提供数据集和见解,为未来改进 MLLM 作为评判的能力提供指引。
提出的方法
- 从 14 个数据集收集图像-指令对,形成 4,414 对图像-指令。
- 从六个主流 MLLMs 生成回答,形成用于评判的回答集。
- 对 MLLM 判定进行注释并与人类注释相比对,使用三项任务:评分评估、对比比较、批量排名。
- 使用皮尔逊相关性、准确率/F1/召回率,以及归一化 Levenshtein 距离分析与人类判断的一致性。
- 研究 MLLM 判定中的偏见(自我中心、位置、长度/冗长)和幻觉。
- 评估思路链提示以及视觉描述对评判表现的影响。
实验结果
研究问题
- RQ1MLLMs 能否在多模态领域有效担任评判角色,其评估与人类偏好的一致性有多高?
- RQ2MLLMs 在评分评估、对比比较和批量排名方面与人类判断的一致性如何?
- RQ3哪些偏见或幻觉会影响 MLLM 的判断,提示策略能否缓解?
- RQ4提供视觉输入(而非描述)是否能提升多模态判定表现?
- RQ5多步思维链(CoT)方法会提升还是降低判断表现?
主要发现
- GPT-4V 在各设定下始终与人类注释的对齐度最接近,优于其他 MLLMs。
- MLLMs 在对比评估方面与人类偏好对齐良好,但在评分评估和批量排名方面存在显著差异。
- 幻觉和偏见(自我中心、位置、长度)普遍存在,影响判断可靠性,尤其在批量排名中。
- 视觉输入加上视觉描述可以显著提升判断表现,有时甚至超过无视觉的基线。
- 三步思维链可减少幻觉,但并不始终提升与人类偏好的对齐;有时会降低判定质量。
- 对某些模型存在规模效应的证据,较大的大模型在特定任务上表现更强。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。