[논문 리뷰] MMBench: Is Your Multi-modal Model an All-around Player?
MMBench는 CircularEval과 ChatGPT 기반 선택 추출기를 사용하여 14개 모델에 걸쳐 20개 세부 능력을 다각적으로 평가하는 비전-언어 모델용 포괄적이고 객관적인 다능력 벤치마크를 도입합니다.
Large vision-language models (VLMs) have recently achieved remarkable progress, exhibiting impressive multimodal perception and reasoning abilities. However, effectively evaluating these large VLMs remains a major challenge, hindering future development in this domain. Traditional benchmarks like VQAv2 or COCO Caption provide quantitative performance measurements but lack fine-grained ability assessment and robust evaluation metrics. Meanwhile, subjective benchmarks, such as OwlEval, offer comprehensive evaluations of a model's abilities by incorporating human labor, which is not scalable and may display significant bias. In response to these challenges, we propose MMBench, a bilingual benchmark for assessing the multi-modal capabilities of VLMs. MMBench methodically develops a comprehensive evaluation pipeline, primarily comprised of the following key features: 1. MMBench is meticulously curated with well-designed quality control schemes, surpassing existing similar benchmarks in terms of the number and variety of evaluation questions and abilities; 2. MMBench introduces a rigorous CircularEval strategy and incorporates large language models to convert free-form predictions into pre-defined choices, which helps to yield accurate evaluation results for models with limited instruction-following capabilities. 3. MMBench incorporates multiple-choice questions in both English and Chinese versions, enabling an apples-to-apples comparison of VLMs' performance under a bilingual context. To summarize, MMBench is a systematically designed objective benchmark for a robust and holistic evaluation of vision-language models. We hope MMBench will assist the research community in better evaluating their models and facilitate future progress in this area. The evalutation code of MMBench has been integrated into VLMEvalKit: https://github.com/open-compass/VLMEvalKit.
연구 동기 및 목표
- 비전-언어 모델의 지각 및 추론 능력을 위한 계층적이고 세부적인 능력 분류 체계를 정의합니다.
- 약 3000개의 다중 선택 문제를 포함하는 대규모의 다양한 데이터셋을 구축하여 20개의 leaf 능력을 다룹니다.
- 비용 관리와 함께 평가의 강건성을 높이기 위한 CircularEval을 도입합니다.
- 자유 형식 VLM 출력 처리를 위한 보편적 선택 추출기로서의 ChatGPT를 활용합니다.
- 탐색적 14개의 중요한 비전-언어 모델을 벤치마크하여 능력 간 격차를 분석하고 설계 지침을 제시합니다.
제안 방법
- 20개의 leaf 능력을 가진 20단계의 능력 분류체계(L-1에서 L-3까지)를 작성합니다.
- 다양한 소스로부터 수집된 이미지와 2~4개의 선택지가 있는 2,974개의 Q/A 아이템 데이터셋을 구성합니다.
- CircularEval 프로토콜을 통해 자유 형식 예측을 단일 선택지 라벨로 변환합니다(패스를 거치며 선택지가 회전합니다).
- 모델 출력을 해당 선택지 라벨에 매핑하기 위해 ChatGPT를 사용하고 파싱 실패 시 인간 또는 무작위 라벨링으로 대체합니다.
- dev/test 분할을 제공합니다; dev에서 정답은 공개이고 test에서는 비공개이며 평가 서버를 통해 평가합니다.
- 14개의 LVLM을 평가하고 능력별 성능을 분석하며 가능하면 더 큰 변형과 비교합니다.
실험 결과
연구 질문
- RQ1세밀한 분류 체계 기반 벤치마크가 LVLM의 다양한 지각 및 추론 능력을 신뢰성 있게 정량화할 수 있는가?
- RQ2CircularEval이 VanillaEval 대비 단일 패스 평가의 강건성을 향상시키는가?
- RQ3ChatGPT가 자유 형식의 모델 출력에서 미리 정의된 옵션으로 파싱하는 보편적 선택 추출기로 신뢰할 수 있는가?
- RQ420개의 leaf 능력 전반에서 현재 LVLM의 강점과 약점은 무엇인가?
- RQ5다른 모델 아키텍처/데이터 전략이 능력 차원에서 성능에 어떤 영향을 미치는가?
주요 결과
| VLM | 전체 | LR | AR | RR | FP-S | FP-C | CP |
|---|---|---|---|---|---|---|---|
| OpenFlamingo | 4.3% | 6.7% | 11.4% | 3.3% | 2.5% | 1.6% | 1.5% |
| OpenFlamingo v2 | 5.7% | 11.4% | 12.8% | 1.4% | 5.5% | 0.8% | 4.0% |
| MMGPT | 16.0% | 1.1% | 23.9% | 20.7% | 18.3% | 5.2% | 18.2% |
| MiniGPT-4 | 23.0% | 13.6% | 32.9% | 8.9% | 28.7% | 11.2% | 28.3% |
| InstructBLIP | 36.0% | 14.2% | 46.3% | 22.6% | 37.0% | 21.4% | 49.0% |
| VisualGLM | 38.1% | 10.8% | 44.3% | 35.7% | 43.8% | 23.4% | 47.3% |
| LLaVA | 38.7% | 16.7% | 48.3% | 30.4% | 45.5% | 32.4% | 40.6% |
| LLaMA-Adapter | 41.2% | 11.7% | 35.3% | 29.6% | 47.5% | 38.6% | 56.4% |
| μ-G2PT | 43.2% | 13.3% | 38.8% | 40.9% | 46.5% | 38.6% | 58.1% |
| mPLUG-Owl | 49.4% | 16.7% | 53.2% | 47.8% | 50.2% | 40.7% | 64.1% |
| Otter-I | 51.4% | 32.5% | 56.7% | 53.9% | 46.8% | 36.4% | 60.6% |
| Kosmos-2 | 59.2% | 46.7% | 55.7% | 43.5% | 65.6% | 47.9% | 70.4% |
| Shikra | 58.8% | 25.8% | 56.7% | 58.3% | 57.2% | 57.9% | 75.8% |
| PandaGPT | 33.5% | 10.0% | 38.8% | 23.5% | 27.9% | 35.2% | 48.3% |
| MiniGPT-4-13B | 42.3% | 20.8% | 50.7% | 30.4% | 49.5% | 26.2% | 50.7% |
| InstructBLIP-13B | 44.0% | 19.1% | 54.2% | 34.8% | 47.8% | 24.8% | 56.4% |
- MMBench는 20개의 leaf 능력에 걸쳐 2,974개의 데이터 샘플을 보유하고 능력 간 균형 잡힌 분포를 보여준다.
- CircularEval은 편향을 크게 감소시키고 테스트 모델 간의 비교를 VanillaEval보다 더 강건하게 만든다.
- ChatGPT 기반 선택 추출은 인간 판단과의 높은 일치를 달성하며 (GPT-3.5/GPT-4에서 87.0–87.2%), 모호한 출력을 파싱할 때 정확일치보다 우수하다.
- 14개의 LVLM 중 성능은 능력별로 크게 다르며 CircularEval 하에서 VanillaEval보다 감소하는 경향이 있어 강건성과 원시 정확도 간 trade-off를 시사한다.
- 더 큰 모델이나 다른 아키텍처 설계가 지시 따라 수행능력이나 전반적 성능을 보장하지 않으며, 능력별 세부 추세는 교차 인스턴스 지각, 논리/관계 추론 등의 특정 강점을 드러낸다.
- dev에 대한 정답 평가가 공개되고 test는 평가 서버에 제출해야 하므로 공정한 모델 간 비교가 가능하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.