[論文レビュー] SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension
SEED-Benchは、12の画像/動画の次元にわたる生成的理解を評価するための大規模なグラウンドトゥルース19Kの多肢選択ベンチマークを導入し、自動的な問題生成と人間による検証パイプラインを使用します。
Based on powerful Large Language Models (LLMs), recent generative Multimodal Large Language Models (MLLMs) have gained prominence as a pivotal research area, exhibiting remarkable capability for both comprehension and generation. In this work, we address the evaluation of generative comprehension in MLLMs as a preliminary step towards a comprehensive assessment of generative models, by introducing a benchmark named SEED-Bench. SEED-Bench consists of 19K multiple choice questions with accurate human annotations (x 6 larger than existing benchmarks), which spans 12 evaluation dimensions including the comprehension of both the image and video modality. We develop an advanced pipeline for generating multiple-choice questions that target specific evaluation dimensions, integrating both automatic filtering and manual verification processes. Multiple-choice questions with groundtruth options derived from human annotation enables an objective and efficient assessment of model performance, eliminating the need for human or GPT intervention during evaluation. We further evaluate the performance of 18 models across all 12 dimensions, covering both the spatial and temporal understanding. By revealing the limitations of existing MLLMs through evaluation results, we aim for SEED-Bench to provide insights for motivating future research. We will launch and consistently maintain a leaderboard to provide a platform for the community to assess and investigate model capability.
研究の動機と目的
- 画像と動画のモダリティ全体にわたるマルチモーダルLLMsの生成的理解について、スケーラブルで客観的な評価を提供する。
- 12の異なる空間的・時間的理解の次元にわたる性能を定量化する。
- 18モデルを比較するリーダーボードプラットフォームを提供し、将来の研究を導く。
提案手法
- 12の評価次元に渡る人間注釈からグランドトゥルースを含む19Kの多肢択一問題を生成する。
- 画像から自動的に視覚情報(キャプション、インスタンス記述、テキスト)を抽出し、プロンプトを用いて問題と4つの選択肢(グランドトゥルース解答を1つ含む)を生成する。
- 視覚情報なしで回答できる可能性がある質問を複数のLLMを用いて除外する。
- 正しい選択肢を選択させ、質問を評価次元に割り当てるために人間の注釈者を使用する。
- 質問を与えたときに各候補択の尤度を計算して答えを順位付けすることでモデルを評価し、最も尤度の高い選択肢を選択する。
実験結果
リサーチクエスチョン
- RQ1現在のMLLMsが、空間的・時間的理解タスクの包括的なセットに対してどの程度の能力を持つか?
- RQ2画像のみ、動画、およびハイブリッドマルチモーダルモデルは、12のSEED-Bench次元でどのように比較されるか?
- RQ3大規模でグランドトゥルースベースのMC質問ベンチマークは、テスト時に人間/GPTを用いずに安定した客観的評価を提供できるか?
- RQ4視覚・時間的推論における異なるモデルファミリー(ImageLLMs、VideoLLMs、LLMs)の強みと弱みについて、どんな洞察が得られるか?
主な発見
- SEED-BenchはほとんどのMLLMが12の次元で限られた性能を示し、細かな時間理解に顕著なギャップがあることを明らかにする。
- InstructBLIPは空間的次元の平均的な性能をリードし、時間的次元でもいくつかのVideoLLMsを上回る。
- VideoLLMsは時間的理解で一貫してImageLLMsを上回らないことがあり、細かな動画推論の改善余地を示唆する。
- 多くのモデルは文字認識と空間関係理解に苦戦しており、OCRが豊富なタスクや関係推論のギャップを浮き彫りにしている。
- 評価では、InstructBLIPやVPGTransのような特定の次元(視覚推論や動作認識など)で卓越するモデルもあるが、全体的な性能は多くのタスクでLLMベースラインのピークを下回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。