[論文レビュー] Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
tldr: Video-MME は、動画分析におけるマルチモーダル大規模言語モデルを評価する最初の全スペクトラムベンチマークであり、900 本の manually curated ビデオ、2,700 件の QA ペア、およびマルチモーダル入力(動画フレーム、字幕、オーディオ)を使用します。商用モデルとオープンソースモデルをベンチマークし、モダリティと継続時間の影響を分析します。
In the quest for artificial general intelligence, Multi-modal Large Language Models (MLLMs) have emerged as a focal point in recent advancements. However, the predominant focus remains on developing their capabilities in static image understanding. The potential of MLLMs in processing sequential visual data is still insufficiently explored, highlighting the absence of a comprehensive, high-quality assessment of their performance. In this paper, we introduce Video-MME, the first-ever full-spectrum, Multi-Modal Evaluation benchmark of MLLMs in Video analysis. Our work distinguishes from existing benchmarks through four key features: 1) Diversity in video types, spanning 6 primary visual domains with 30 subfields to ensure broad scenario generalizability; 2) Duration in temporal dimension, encompassing both short-, medium-, and long-term videos, ranging from 11 seconds to 1 hour, for robust contextual dynamics; 3) Breadth in data modalities, integrating multi-modal inputs besides video frames, including subtitles and audios, to unveil the all-round capabilities of MLLMs; 4) Quality in annotations, utilizing rigorous manual labeling by expert annotators to facilitate precise and reliable model assessment. 900 videos with a total of 254 hours are manually selected and annotated by repeatedly viewing all the video content, resulting in 2,700 question-answer pairs. With Video-MME, we extensively evaluate various state-of-the-art MLLMs, including GPT-4 series and Gemini 1.5 Pro, as well as open-source image models like InternVL-Chat-V1.5 and video models like LLaVA-NeXT-Video. Our experiments reveal that Gemini 1.5 Pro is the best-performing commercial model, significantly outperforming the open-source models. Our dataset along with these findings underscores the need for further improvements in handling longer sequences and multi-modal data. Project Page: https://video-mme.github.io
研究の動機と目的
- diverse なドメインと長さの異なる連続動画理解におけるマルチモーダル LLMs の評価。
- 字幕とオーディオという追加モダリティが動画理解に与える影響の評価。
- 現在のモデルの強みとギャップを明らかにする高品質で手作業で注釈されたベンチマークの提供。
- 短・中・長の動画コンテキストでの商用とオープンソース MLLMs の比較。
- 長い文脈とマルチモーダル動画推論を改善する方向性の強調。
提案手法
- 6 つのドメインと 30 のサブフィールドにまたがる diverse な動画データセット(900 本)を作成、再生時間は 11 秒から 1 時間まで。
- 各動画につき 2,700 の多肢選択式 QA ペアを、厳密な人手ラベリングで作成(1 動画あたり 3 問)。
- 字幕とオーディオをオプションのモダリティとして含め、マルチモーダル理解を評価。
- 品質評価プロセスを通じて、動画コンテンツが回答要件である QA ペアを保証。
- 商用モデル(GPT-4V、GPT-4o、Gemini 1.5 Pro)とオープンソース(Video-LLaVA、VideoChat2、ST-LLM など)を組み合わせて評価。
- 複数回答の正解率を第一指標として用い、フレームのみ入力とフレーム+字幕/オーディオ入力を比較。
実験結果
リサーチクエスチョン
- RQ1最先端の商用およびオープンソース MLLMs は、多様でマルチモーダルな動画理解タスクでどのように性能を発揮するか。
- RQ2字幕とオーディオを追加することが、異なる長さとドメインでの動画理解に与える影響はどの程度か。
- RQ3動画の長さと時間的複雑さの増加に対して、モデルの性能はどのようにスケールするか。
- RQ4画像ベースの MLLMs が、動画タスクのマルチフレーム入力へ拡張された場合、競争力はあるか。
- RQ5長い文脈の動画理解を改善する上での主要なボトルネックと潜在的な方向性は何か。
主な発見
- Gemini 1.5 Pro は、フレーム入力のみで全体的に最高の性能であり、正確さは 75.7% に達する。
- オープンソースの MLLMs は商用モデルに遅れを取り、LLaVA-NeXT-Video は動画タスク(フレーム入力)で全体 52.5% のみ。
- 字幕またはオーディオを追加すると正確さが向上し、特に長い動画では影響が大きくなる(例:オーディオを用いた多言語タスクで最大で +16.6%)。
- 動画の長さが増すにつれて、オープンソースおよび商用モデルの両方の性能が低下する。
- 画像 MLLMs をマルチフレーム入力へ拡張した場合(Qwen-VL-Max、InternVL-Chat-V1.5)は約 51% の正確さに達し、動画タスクには画像理解が基盤となる役割を示す。
- Video-MME は画像ベースおよび動画ベースの MLLMs の普遍的なベンチマークとして適用可能。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。