QUICK REVIEW

[논문 리뷰] MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI

Xiang Yue, Yuansheng Ni|arXiv (Cornell University)|2023. 11. 27.

Topic Modeling인용 수 15

한 줄 요약

MMMU는 6개 분야(Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, Tech & Engineering) 전공급 멀티모달 벤치마크로, 30개 주제와 183 하위 분야에 걸쳐 11.5K 문제를 다루며 멀티모달 모델에서 전문가 수준의 지각, 지식, 추론을 테스트하도록 고안되었습니다. 오픈소스 LMM과 GPT-4V(ision) 간의 큰 차이를 드러내며 개선 여지가 큽니다.

ABSTRACT

We introduce MMMU: a new benchmark designed to evaluate multimodal models on massive multi-discipline tasks demanding college-level subject knowledge and deliberate reasoning. MMMU includes 11.5K meticulously collected multimodal questions from college exams, quizzes, and textbooks, covering six core disciplines: Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, and Tech & Engineering. These questions span 30 subjects and 183 subfields, comprising 30 highly heterogeneous image types, such as charts, diagrams, maps, tables, music sheets, and chemical structures. Unlike existing benchmarks, MMMU focuses on advanced perception and reasoning with domain-specific knowledge, challenging models to perform tasks akin to those faced by experts. The evaluation of 14 open-source LMMs as well as the proprietary GPT-4V(ision) and Gemini highlights the substantial challenges posed by MMMU. Even the advanced GPT-4V and Gemini Ultra only achieve accuracies of 56% and 59% respectively, indicating significant room for improvement. We believe MMMU will stimulate the community to build next-generation multimodal foundation models towards expert artificial general intelligence.

연구 동기 및 목표

대학 수준 과목 전반에 걸친 전문가 수준의 멀티모달 이해 및 추론을 평가한다.
다양한 이미지 형식과 텍스트-이미지 인터리브 입력을 현재 LMM이 어떻게 처리하는지 평가한다.
오픈소스 모델과 독점 리더 간의 전문가 도메인 작업에서의 차이를 조사한다.

제안 방법

대학 시험, 퀴즈, 교과서에서 30개 주제 및 183 하위 분야에 걸친 11.5K개의 수작업으로 큐레이션된 멀티모달 문제를 수집한다.
30가지 이질적인 이미저 타입(차트, 다이어그램, 지도, 표, 악보, 화학 구조 등)과 간섭 텍스트/이미지 조합을 포함한다.
제로샷으로 모델을 평가하고, 오픈형 및 객관식 형식을 다루기 위한 견고한 답변 추출을 사용하여 마이크로 평균 정확도를 보고한다.
14개의 오픈 소스 LMM과 독점 GPT-4V(ision) 및 Gemini Ultra의 기준선 비교를 제공한다.
지각, 지식, 추론 실패 모드를 분류하기 위해 오류를 분석한다.

실험 결과

연구 질문

RQ1현대의 멀티모달 모델이 전문가 도메인 작업에서 다양한 이미지 유형을 얼마나 잘 지각하고 처리하는가?
RQ2모델이 간섭 텍스트-이미지 질문을 해결하기 위해 대학 수준의 도메인 지식을 얼마나 적용할 수 있는가?
RQ3MMMU 전 분야에 걸쳐 오픈소스 LMM과 독점 리더 간의 성능 차이는 어느 정도인가?
RQ4전문 멀티모달 작업에서 지각, 지식, 추론 중 어떤 지배적인 오류 범주가 나타나는가?

주요 결과

모델	쉬움	보통	어려움	종합
Fuyu-8B	27.4	27.0	26.4	27.4
Qwen-VL-7B	32.9	31.9	27.6	32.9
LLaVA-1.5-13B	33.6	32.7	26.7	33.6
InstructBLIP-T5-XXL	33.8	32.3	29.4	33.8
BLIP-2 FLAN-T5-XXL	34.0	32.7	28.5	34.0
GPT-4V	76.1	55.6	31.2	55.7

GPT-4V(ision)는 전체 정확도 55.7%를 달성하여 MMMU에서 개선 여지가 크다는 것을 시사한다.
상위 오픈소스 모델들(예: BLIP2-FLAN-T5-XXL, LLaVA-1.5)은 대략 34%의 전체 정확도에 도달하여 GPT-4V와의 큰 격차를 보여준다.
OCR 또는 캡션 지원은 MMMU에 큰 개선을 제공하지 않아 더 깊은 공동 이미지-텍스트 해석이 필요함을 시사한다.
시각적으로 더 간단한 데이터를 다루는 분야(Art & Design, Humanities & Social Science)는 시각적으로 복잡한 데이터와 도메인 특유의 추론을 요구하는 분야(Science, Health & Medicine, Tech & Engineering)보다 모델 성능이 더 높게 나타난다.
GPT-4V에 대한 150건의 오류 분석은 지각 오류 35%, 지식 격차 29%, 추론 결함 26%를 보여주며 MMMU의 다면적 도전에 주목한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.