Skip to main content
QUICK REVIEW

[論文レビュー] MVPBench: A Multi-Video Perception Evaluation Benchmark for Multi-Modal Video Understanding

Purui Bai, Tao Wu|arXiv (Cornell University)|Mar 24, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

MVPBench は 14 タスク、2.7K 本の動画を含む 5K QA のベンチマークを導入し、マルチ動画認識を評価する。現行モデルは人間と比べてマルチ動画の理解に苦戦している。

ABSTRACT

The rapid progress of Large Language Models (LLMs) has spurred growing interest in Multi-modal LLMs (MLLMs) and motivated the development of benchmarks to evaluate their perceptual and comprehension abilities. Existing benchmarks, however, are limited to static images or single videos, overlooking the complex interactions across multiple videos. To address this gap, we introduce the Multi-Video Perception Evaluation Benchmark (MVPBench), a new benchmark featuring 14 subtasks across diverse visual domains designed to evaluate models on extracting relevant information from video sequences to make informed decisions. MVPBench includes 5K question-answering tests involving 2.7K video clips sourced from existing datasets and manually annotated clips. Extensive evaluations reveal that current models struggle to process multi-video inputs effectively, underscoring substantial limitations in their multi-video comprehension. We anticipate MVPBench will drive advancements in multi-video perception.

研究の動機と目的

  • 複数の動画を横断して知覚と推論を評価するための MLLMs の評価。
  • 時間的スプライシングからマルチ動画の品質・物理法則推論まで、幅広いタスクを網羅する。
  • モデル間の比較を標準化した情報理論的評価フレームワークを提供する。

提案手法

  • 動画を横断する時間的・知覚的・高次推論を含む 14 のサブタスクを設計する。
  • 公正なクロスモデル比較を可能にするため、プロンプトと動画の役割ラベリングを標準化する。
  • チャンスベースラインと情報ゲインの重みづけを用いて正規化された習熟度スコアを計算する。
  • 人間ベースラインの評価を実施し、MLLM–人間の合意チェックで検証する。
  • マルチ動画入力における現在のモデルのバイアスと限界を分析する。

実験結果

リサーチクエスチョン

  • RQ1現在の MLLMs は複数動画入力を効果的に処理・推論できるか。
  • RQ2時間的シーケンス、動作評価、動画横断の比較を要するタスクでのモデルの性能はどうなるか。
  • RQ3マルチ動画プロンプトを扱う際のモデルのバイアスやヒューリスティックは何か。
  • RQ4人間とモデルのマルチ動画知覚タスクの性能差はどれくらいか。

主な発見

  • ほとんどのサブタスクで人間の性能と比べてモデルに顕著なギャップが見られる。
  • 時間的スプライシングとマルチ動画シーケンスはモデルにとって最も難しいタスクである。
  • 品質関連タスク(鮮明さ、明るさ、法医学的観点)は混合結果で、タスク間の相関は弱い。
  • 特定のサブタスク(多視点照合、歩容、 cinematographic style)にはタスク固有の強みと弱みが現れる。
  • 最初の動画へ偏る位置バイアスが観測され、表面的なヒューリスティックへの依存を示唆する。
  • アブレーションにより、単一動画評価はマルチ動画設定に比べて劣ることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。