[논문 리뷰] VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use
VisIT-Bench는 592개의 테스트 쿼리와 70개의 instruction families에 걸친 다이나믹 비전-언어 지시 이행 벤치마크를 도입하며, 사람의 검증된 참조와 Elo 기반 리더보드를 통해 실제 세계에서 멀티모달 챗봇을 평가합니다.
We introduce VisIT-Bench (Visual InsTruction Benchmark), a benchmark for evaluation of instruction-following vision-language models for real-world use. Our starting point is curating 70 'instruction families' that we envision instruction tuned vision-language models should be able to address. Extending beyond evaluations like VQAv2 and COCO, tasks range from basic recognition to game playing and creative generation. Following curation, our dataset comprises 592 test queries, each with a human-authored instruction-conditioned caption. These descriptions surface instruction-specific factors, e.g., for an instruction asking about the accessibility of a storefront for wheelchair users, the instruction-conditioned caption describes ramps/potential obstacles. These descriptions enable 1) collecting human-verified reference outputs for each instance; and 2) automatic evaluation of candidate multimodal generations using a text-only LLM, aligning with human judgment. We quantify quality gaps between models and references using both human and automatic evaluations; e.g., the top-performing instruction-following model wins against the GPT-4 reference in just 27% of the comparison. VisIT-Bench is dynamic to participate, practitioners simply submit their model's response on the project website; Data, code and leaderboard is available at visit-bench.github.io.
연구 동기 및 목표
- 현실 세계의 비전-언어 사용을 반영하는 지시 이행 모델용 벤치마크를 만들어야 한다.
- recognition에서 개방형 생성에 이르는 70개의 instruction families를 포괄하는 광범위한 태스크 세트를 다룬다.
- 사람이 확인한 참조와 자동 평가를 제공하여 인간 판단과의 정합성을 확보한다.
- 멀티모달 챗봇의 시간에 따른 진전을 추적하는 동적 리더보드를 enable 한다.
제안 방법
- 각 인스턴스에 대해 instruction-conditioned caption을 포함한 70개 instruction families를 592개의 테스트 쿼리로 큐레이션한다.
- 평가를 위한 task-specific 지침을 surface하기 위해 instruction-conditioned captions를 생성한다.
- 사람이 검증한 GPT-4 참조 outputs를 확보하고 인간 검증을 거쳐 필터링한다.
- 헤드 투 헤드 인간 판단과 Elo 평가로 모델 출력물을 평가한다.
- 사람의 선호도와 상관관계가 있는 자동 GPT-4 기반 평가(GPT4-no-ref)를 개발한다.
- 데이터, 코드, 동적 리더보드를 커뮤니티 벤치마킹용으로 공개한다.
실험 결과
연구 질문
- RQ1현실 세계의 개방형 태스크에서 현재 비전-언어 지시 이행 모델의 성능은 어느 정도인가?
- RQ2instruction-conditioned captions가 인간 판단과 정합된 신뢰 가능한 자동 평가를 가능하게 하는가?
- RQ3VisIT-Bench에서 단일 이미지 및 다중 이미지 태스크에 대해 최신 모델의 상대 성능은 어떤가?
- RQ4GPT-4 기반 자동 평가가 모델 출력의 순위 결정에서 인간 판단과 어떻게 비교되는가?
주요 결과
| 모델 | Elo | matches | Win-rate vs. reference (w/ # ratings) |
|---|---|---|---|
| LLaVA (13B) | 1085 | 1462 | 26.23% (n=244) |
| LlamaAdapter-v2 (7B) | 1061 | 1507 | 27.41% (n=259) |
| mPLUG-Owl (7B) | 995 | 1345 | 14.95% (n=214) |
| InstructBLIP (13B) | 957 | 1315 | 12.37% (n=194) |
| MiniGPT-4 (7B) | 893 | 1513 | 14.72% (n=299) |
| PandaGPT (13B) | 786 | 1441 | 10.48% (n=229) |
| mPLUG-Owl (Multiple Images) | 997 | 190 | 15.38% (n=78) |
| Otter v1 | 917 | 147 | 3.17% (n=63) |
| OpenFlamingo v1 | 893 | 171 | 4.35% (n=69) |
- VisIT-Bench는 모델과 인간 참조 사이의 의미 있는 차이를 드러내며, 최상의 모델이 참조보다도 승리하는 경우가 단일 이미지 결과에서 27.4%에 불과하다.
- 5K 쌍대 비교를 통해 수집된 인간 판단은 Elo 순위를 제공하며 모델 간 차별화를 가능하게 한다(예: LLaMA-Adapter-v2가 특정 매칭에서 참조를 앞서는 경우가 있다).
- 지시-조건부 캡션이 결정적이며, 상세 캡션을 사용하는 것이(BLIP-2 캡션 대비) 올바른 지시 이행을 현저히 향상시킨다(91% 대 31%).
- 자동 GPT-4 기반 평가(GPT4-no-ref)가 인간 판단과 가장 강하게 상관되며, 다수 투표의 재구성 정확도가 높은 편이다(예: 모든 주석자 합의 시 93%).
- VisIT-Bench는 새로운 모델 및 인스턴스 평가로 업데이트되는 동적 리더보드를 제공하여 멀티모달 지시 이행의 진전을 추적한다.
- 데이터셋과 리더보드를 공개적으로 릴리스하여 커뮤니티 주도 벤치마킹과 방법 개발을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.