QUICK REVIEW

[論文レビュー] MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI

Xiang Yue, Yuansheng Ni|arXiv (Cornell University)|Nov 27, 2023

Topic Modeling被引用数 15

ひとこと要約

MMMUは大学レベルのマルチモーダルベンチマークで、6つの教科 (Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, Tech & Engineering) にわたる11.5Kの質問、30の科目と183のサブ分野を網羅し、マルチモーダルモデルの専門家レベルの知覚・知識・推論をテストする。オープンソースLMMとGPT-4V(ision)の間には大きなギャップがあり、改善の余地が十分にある。

ABSTRACT

We introduce MMMU: a new benchmark designed to evaluate multimodal models on massive multi-discipline tasks demanding college-level subject knowledge and deliberate reasoning. MMMU includes 11.5K meticulously collected multimodal questions from college exams, quizzes, and textbooks, covering six core disciplines: Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, and Tech & Engineering. These questions span 30 subjects and 183 subfields, comprising 30 highly heterogeneous image types, such as charts, diagrams, maps, tables, music sheets, and chemical structures. Unlike existing benchmarks, MMMU focuses on advanced perception and reasoning with domain-specific knowledge, challenging models to perform tasks akin to those faced by experts. The evaluation of 14 open-source LMMs as well as the proprietary GPT-4V(ision) and Gemini highlights the substantial challenges posed by MMMU. Even the advanced GPT-4V and Gemini Ultra only achieve accuracies of 56% and 59% respectively, indicating significant room for improvement. We believe MMMU will stimulate the community to build next-generation multimodal foundation models towards expert artificial general intelligence.

研究の動機と目的

大学レベルの科目全体にわたる専門家レベルのマルチモーダル理解と推論を評価する。
現在のLMMが多様な画像形式とテキスト/画像が混在する入力をどのように処理するかを評価する。
専門領域タスクにおけるオープンソースモデルと独自リーダーとのギャップを調査する。

提案手法

30科目と183サブ分野に跨る、大学の試験・クイズ・教科書から手作業で厳選した11.5Kのマルチモーダル質問を収集する。
チャート、図、地図、表、楽譜、化学構造など、30種類の異種画像タイプとテキスト/画像の混在を含める。
ゼロショットでモデルを評価し、オープン形式と選択式の両方に対応する頑健な解答抽出を用いてマイクロ平均精度を報告する。
14のオープンソースLMMと独自モデルGPT-4V(ision)およびGemini Ultraとのベースライン比較を提供する。
知覚・知識・推論の失敗モードを分類するためにエラーを分析する。

実験結果

リサーチクエスチョン

RQ1現在のマルチモーダルモデルは、専門領域のタスクにおいて多様な画像タイプをどれだけ正しく認識・処理できるか？
RQ2モデルはテキストと画像が混在する質問を解く際に、大学レベルの分野知識をどの程度適用できるか？
RQ3MMMUの各分野で、オープンソースLMMと独自リーダー間の性能ギャップはどれくらいか？
RQ4専門的なマルチモーダルタスクにおける主なエラーカテゴリー（知覚、知識、推論）は何か？

主な発見

Model	Easy	Medium	Hard	Overall
Fuyu-8B	27.4	27.0	26.4	27.4
Qwen-VL-7B	32.9	31.9	27.6	32.9
LLaVA-1.5-13B	33.6	32.7	26.7	33.6
InstructBLIP-T5-XXL	33.8	32.3	29.4	33.8
BLIP-2 FLAN-T5-XXL	34.0	32.7	28.5	34.0
GPT-4V	76.1	55.6	31.2	55.7

GPT-4V(ision)は全体の正解率55.7%を達成しており、MMMUにはかなりの改善余地がある。
トップのオープンソースモデル（例: BLIP2-FLAN-T5-XXL, LLaVA-1.5）は全体精度約34%にとどまり、GPT-4Vとの差が大きい。
OCRやキャプション生成支援はMMMUでほとんど改善をもたらさない。
視覚的にデータが単純な分野（Art & Design, Humanities & Social Science）は、複雑な視覚資料と分野特有の推論を要するScience, Health & Medicine, Tech & Engineeringよりモデルの性能が高い。
150件のケースに対するGPT-4Vのエラー分析は、35%が知覚エラー、29%が知識ギャップ、26%が推論の欠陥を示しており、MMMUには多面的な課題があることを浮き彫りにしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。