[논문 리뷰] Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
Video-MME는 비디오 분석에서 다중 모달 LLM을 평가하기 위한 최초의 전체 스펙트럼 벤치마크로, 900개의 수동으로 큐레이션된 비디오, 2,700개의 QA 쌍, 그리고 다중 모달 입력(비디오 프레임, 자막, 및 오디오)을 활용합니다. 상용 및 오픈 소스 모델을 벤치마크하고 모달리티 및 지속 시간 효과를 분석합니다.
In the quest for artificial general intelligence, Multi-modal Large Language Models (MLLMs) have emerged as a focal point in recent advancements. However, the predominant focus remains on developing their capabilities in static image understanding. The potential of MLLMs in processing sequential visual data is still insufficiently explored, highlighting the absence of a comprehensive, high-quality assessment of their performance. In this paper, we introduce Video-MME, the first-ever full-spectrum, Multi-Modal Evaluation benchmark of MLLMs in Video analysis. Our work distinguishes from existing benchmarks through four key features: 1) Diversity in video types, spanning 6 primary visual domains with 30 subfields to ensure broad scenario generalizability; 2) Duration in temporal dimension, encompassing both short-, medium-, and long-term videos, ranging from 11 seconds to 1 hour, for robust contextual dynamics; 3) Breadth in data modalities, integrating multi-modal inputs besides video frames, including subtitles and audios, to unveil the all-round capabilities of MLLMs; 4) Quality in annotations, utilizing rigorous manual labeling by expert annotators to facilitate precise and reliable model assessment. 900 videos with a total of 254 hours are manually selected and annotated by repeatedly viewing all the video content, resulting in 2,700 question-answer pairs. With Video-MME, we extensively evaluate various state-of-the-art MLLMs, including GPT-4 series and Gemini 1.5 Pro, as well as open-source image models like InternVL-Chat-V1.5 and video models like LLaVA-NeXT-Video. Our experiments reveal that Gemini 1.5 Pro is the best-performing commercial model, significantly outperforming the open-source models. Our dataset along with these findings underscores the need for further improvements in handling longer sequences and multi-modal data. Project Page: https://video-mme.github.io
연구 동기 및 목표
- 다양한 도메인과 지속 시간에 걸친 시퀀스 비디오 이해에서 다중 모달 LLM을 평가한다.
- 비디오 이해에 대한 자막 및 오디오 같은 추가 모달리티의 영향력을 평가한다.
- 현재 모델의 강점과 격차를 드러내는 고품질의 수작업 주석 벤치마크를 제공한다.
- 짧은, 중간, 긴 비디오 맥락에서 상용 및 오픈 소스 MLLMs를 비교한다.
- 장기 맥락 및 다중 모달 비디오 추론을 개선하기 위한 방향을 강조한다.
제안 방법
- 다양한 도메인과 30 하위 분야에 걸친 900개의 비디오로 구성된 다양한 비디오 데이터셋을 구축한다.
- 비디오당 2,700개의 다지선다형 QA 쌍을 (비디오당 3개) 엄격한 인간 라벨링으로 주석화한다.
- 자막과 오디오를 선택적 모달리티로 포함하여 다중 모달 이해를 평가한다.
- QA 쌍이 답하기 위해 비디오 콘텐츠가 필요하도록 품질 검토 프로세스를 통해 보장한다.
- 상용(GPT-4V, GPT-4o, Gemini 1.5 Pro)과 오픈소스(Video-LLaVA, VideoChat2, ST-LLM, 등)의 MLLMs를 혼합해 평가한다.
- 다지선다 문제에서의 정확도를 주요 지표로 삼고 프레임만 입력 vs 프레임+자막/오디오 입력을 비교한다.
실험 결과
연구 질문
- RQ1최신 상용 및 오픈 소스 MLLMs가 다양하고 다중 모달 비디오 이해 작업에서 어떻게 수행하는가?
- RQ2자막과 오디오를 추가하는 것이 다양한 지속 시간과 도메인에서 비디오 이해에 어떤 영향을 미치는가?
- RQ3비디오 길이 및 증가된 시간적 복잡도에 따라 모델 성능이 어떻게 확장되는가?
- RQ4이미지 기반 MLLMs가 다중 프레임 입력으로 확장될 때 경쟁력이 있는가?
- RQ5장기 맥락 비디오 이해를 개선하기 위한 주된 병목 현상과 잠재적 방향은 무엇인가?
주요 결과
- Gemini 1.5 Pro가 프레임 입력만으로 전체적으로 가장 높은 성능인 75.7% 정확도에 도달했다.
- 오픈 소스 MLLMs는 상용 모델에 뒤처지며, LLaVA-NeXT-Video는 비디오 작업에서 프레임 입력 기준으로 전체 52.5%를 기록했다.
- 자막 또는 오디오를 추가하면 정확도가 향상되며, 특히 더 긴 비디오에서(예: 오디오를 활용한 다언어 작업에서 최대 +16.6%) 향상된다.
- 프레임 길이가 증가함에 따라 오픈 소스와 상용 모델 모두에서 모델 성능이 감소한다.
- 다중 프레임 입력으로 확장된 이미지 MLLMs(Qwen-VL-Max, InternVL-Chat-V1.5)은 약 51% 정확도에 도달하여 비디오 작업에서의 이미지 이해의 기초적 역할을 강조한다.
- Video-MME은 이미지 기반 및 비디오 기반 MLLMs에 모두 적용 가능한 범용 벤치마크이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.