[论文解读] Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
Video-MME 是首个用于评估多模态大语言模型在视频分析中的全谱评估基准,使用 900 条人工整理的视频、2,700 条问答对,以及多模态输入(视频帧、字幕和音频)。它对商业和开源模型进行基准测试,并分析模态与时长的影响。
In the quest for artificial general intelligence, Multi-modal Large Language Models (MLLMs) have emerged as a focal point in recent advancements. However, the predominant focus remains on developing their capabilities in static image understanding. The potential of MLLMs in processing sequential visual data is still insufficiently explored, highlighting the absence of a comprehensive, high-quality assessment of their performance. In this paper, we introduce Video-MME, the first-ever full-spectrum, Multi-Modal Evaluation benchmark of MLLMs in Video analysis. Our work distinguishes from existing benchmarks through four key features: 1) Diversity in video types, spanning 6 primary visual domains with 30 subfields to ensure broad scenario generalizability; 2) Duration in temporal dimension, encompassing both short-, medium-, and long-term videos, ranging from 11 seconds to 1 hour, for robust contextual dynamics; 3) Breadth in data modalities, integrating multi-modal inputs besides video frames, including subtitles and audios, to unveil the all-round capabilities of MLLMs; 4) Quality in annotations, utilizing rigorous manual labeling by expert annotators to facilitate precise and reliable model assessment. 900 videos with a total of 254 hours are manually selected and annotated by repeatedly viewing all the video content, resulting in 2,700 question-answer pairs. With Video-MME, we extensively evaluate various state-of-the-art MLLMs, including GPT-4 series and Gemini 1.5 Pro, as well as open-source image models like InternVL-Chat-V1.5 and video models like LLaVA-NeXT-Video. Our experiments reveal that Gemini 1.5 Pro is the best-performing commercial model, significantly outperforming the open-source models. Our dataset along with these findings underscores the need for further improvements in handling longer sequences and multi-modal data. Project Page: https://video-mme.github.io
研究动机与目标
- 在多样领域和不同时长的序列视频理解上评估多模态大语言模型。
- 评估额外模态(字幕和音频)对视频理解的影响。
- 提供高质量、人工注释的基准,以揭示当前模型的优势与不足。
- 在短视频、中等长度和长视频情境中比较商业和开源的多模态语言模型。
- 突出改进长上下文和多模态视频推理的方向。
提出的方法
- 构建一个多样化的视频数据集(900 条视频),覆盖 6 个领域和 30 个子领域,时长从 11 秒到 1 小时。
- 对每个视频注释 2,700 条多选题问答对(每个视频 3 条),并进行严格的人类标注。
- 将字幕和音频作为可选模态包含在内,以评估多模态理解。
- 确保问答对需要通过质量评审过程利用视频内容来回答。
- 评估混合的商业(GPT-4V、GPT-4o、Gemini 1.5 Pro)和开源(Video-LLaVA、VideoChat2、ST-LLM 等)多模态语言模型。
- 以多选题的准确率作为主要指标,并比较仅帧输入与帧+字幕/音频输入的差异。
实验结果
研究问题
- RQ1最先进的商业与开源多模态语言模型在多样化的多模态视频理解任务上的表现如何?
- RQ2在不同时长和领域中,添加字幕和音频对视频理解的影响是什么?
- RQ3随着视频长度和时间复杂性增加,模型性能如何变化?
- RQ4是否具备竞争力,当扩展到多帧输入的情况下,基于图像的多模态语言模型在视频任务中?
- RQ5在提升长上下文视频理解方面,主要瓶颈与潜在方向是什么?
主要发现
- Gemini 1.5 Pro 在整体表现上最好,达到 75.7% 的准确率(仅帧输入)。
- 开源 MLLMs 落后于商业模型,LLaVA-NeXT-Video 在视频任务(帧输入)上的总体准确率为 52.5%。
- 增加字幕或音频可提高准确率,尤其是较长视频时(在多语言任务中,使用音频时可提高多达 +16.6%)。
- 在开源和商业模型中,随着视频时长的增加,模型性能下降。
- 将图像 MLLMs 扩展到多帧输入(Qwen-VL-Max、InternVL-Chat-V1.5)达到约 51% 的准确率,凸显了图像理解在视频任务中的基础作用。
- Video-MME 是一个适用于图像和视频基础的 MLLMs 的通用基准。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。