[논문 리뷰] SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension
SEED-Bench는 자동 질문 생성 및 인간 검증 파이프라인을 사용하여 12개의 영상/비디오 차원에서 생성적 이해를 평가하기 위해 대규모의 Ground-Truth 19K 다지선다형 벤치마크를 제시합니다.
Based on powerful Large Language Models (LLMs), recent generative Multimodal Large Language Models (MLLMs) have gained prominence as a pivotal research area, exhibiting remarkable capability for both comprehension and generation. In this work, we address the evaluation of generative comprehension in MLLMs as a preliminary step towards a comprehensive assessment of generative models, by introducing a benchmark named SEED-Bench. SEED-Bench consists of 19K multiple choice questions with accurate human annotations (x 6 larger than existing benchmarks), which spans 12 evaluation dimensions including the comprehension of both the image and video modality. We develop an advanced pipeline for generating multiple-choice questions that target specific evaluation dimensions, integrating both automatic filtering and manual verification processes. Multiple-choice questions with groundtruth options derived from human annotation enables an objective and efficient assessment of model performance, eliminating the need for human or GPT intervention during evaluation. We further evaluate the performance of 18 models across all 12 dimensions, covering both the spatial and temporal understanding. By revealing the limitations of existing MLLMs through evaluation results, we aim for SEED-Bench to provide insights for motivating future research. We will launch and consistently maintain a leaderboard to provide a platform for the community to assess and investigate model capability.
연구 동기 및 목표
- 다중 모달 LLM의 영상 및 비디오 모듈에서 생성적 이해를 확장 가능한 방식으로 객관적으로 평가합니다.
- 12개의 서로 다른 공간적 및 시간적 이해 차원에서 성능을 정량화합니다.
- 18개 모델을 비교하고 향후 연구를 안내하기 위한 리더보드 플랫폼을 제공합니다.
제안 방법
- 12개 평가 차원에 걸쳐 인간 주석으로부터 Groundtruth를 포함한 19K 다지선다형 문제를 생성합니다.
- 이미지에서 시각 정보를 자동으로 추출(캡션, 인스턴스 설명, 텍스트)하고 프롬프트를 사용하여 한 Groundtruth 정답을 포함한 4개의 선택지를 생성합니다.
- 다양한 LLM을 사용하여 시각 입력 없이도 답할 수 있는 문제를 필터링합니다.
- 정답 옵션을 선택하고 문제를 평가 차원에 배정하기 위해 인간 주석가를 활용합니다.
- 질문에 대한 각 후보 선택지의 가능도를 계산하여 가장 높은 가능도 옵션을 선택함으로써 모델을 평가합니다.
실험 결과
연구 질문
- RQ1현재 MLLM이 광범위한 공간적 및 시간적 이해 과제에서 어떤 역량을 보유하고 있나요?
- RQ2이미지 전용, 비디오, 하이브리드 멀티모달 모델은 12개의 SEED-Bench 차원에서 어떻게 비교되나요?
- RQ3대규모 Groundtruth 기반 MC-질문 벤치마크가 Testing 중 인간/GPT 없이도 안정적이고 객관적인 평가를 제공할 수 있나요?
- RQ4시각 및 시간 추론에서 이미지LLMs, 비디오LLMs, LLM 계열의 서로 다른 모델 군의 강점/약점에 관한 통찰은 무엇인가요?
주요 결과
- SEED-Bench에서 대부분의 MLLM이 12개 차원에서 제한된 성능을 보이며, 특히 미세한 시간적 이해에 큰 격차가 존재합니다.
- InstructBLIP가 공간 차원에서 평균 성능을 주도하고 시간 차원에서도 일부 VideoLLMs를 능가합니다.
- VideoLLMs가 시간 이해에서 일관되게 ImageLLMs를 능가하지 못해 미세한 비디오 추론의 개선 여지가 있음을 시사합니다.
- 대부분의 모델이 텍스트 인식 및 공간 관계 이해에 어려움을 겪어 OCR가 풍부한 작업과 관계 추론 작업에서 격차를 드러냅니다.
- 일부 모델(InstructBLIP, VPGTrans)은 시각 추론이나 행동 인식과 같은 특정 차원에서 우수하지만, 전반적으로 여러 작업에서 LLM 베이스라인의 정점에 미치지 못합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.