[論文レビュー] VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use
VisIT-Benchは、現実世界の利用におけるマルチモーダルチャットボットを評価するための、592 のテストクエリを 70 の instruction ファミリー にまたがる、動的な vision-language instruction-following ベンチマークを、人間が検証した参照と Elo ベースのリーダーボードを備えて導入します。
We introduce VisIT-Bench (Visual InsTruction Benchmark), a benchmark for evaluation of instruction-following vision-language models for real-world use. Our starting point is curating 70 'instruction families' that we envision instruction tuned vision-language models should be able to address. Extending beyond evaluations like VQAv2 and COCO, tasks range from basic recognition to game playing and creative generation. Following curation, our dataset comprises 592 test queries, each with a human-authored instruction-conditioned caption. These descriptions surface instruction-specific factors, e.g., for an instruction asking about the accessibility of a storefront for wheelchair users, the instruction-conditioned caption describes ramps/potential obstacles. These descriptions enable 1) collecting human-verified reference outputs for each instance; and 2) automatic evaluation of candidate multimodal generations using a text-only LLM, aligning with human judgment. We quantify quality gaps between models and references using both human and automatic evaluations; e.g., the top-performing instruction-following model wins against the GPT-4 reference in just 27% of the comparison. VisIT-Bench is dynamic to participate, practitioners simply submit their model's response on the project website; Data, code and leaderboard is available at visit-bench.github.io.
研究の動機と目的
- 指示に従うモデルの現実世界での vision-language 利用を反映するベンチマークを作成する。
- 認識からオープンエンド生成までを網羅する70のinstructionファミリーを通じて、広範なタスクをカバーする。
- 人間が検証した参照と自動評価を提供し、人間の判断と一致させる。
- 時系列でマルチモーダルチャットボットの進捗を追跡する動的なリーダーボードを可能にする。
提案手法
- 70のinstructionファミリーを、各インスタンスに命令条件付きキャプションを付けて、592のテストクエリにキュレーションする。
- 評価のためのタスク固有の指示を引き出すよう、instruction-conditionedキャプションを生成する。
- 人間が検証したGPT-4参照出力を取得し、人間の検証を通じてフィルタリングする。
- モデル出力をヘッド・ツー・ヘッドの人間判断と Elo 評価で評価する。
- 人間の嗜好と相関する自動GPT-4ベースの評価(GPT4-no-ref)を開発する。
- データ、コード、そしてコミュニティベンチマーク用の動的リーダーボードを公開する。
実験結果
リサーチクエスチョン
- RQ1現実世界のオープンエンドなタスクに、現在の vision-language 指示追従モデルはどの程度適切に対応できるか?
- RQ2instruction-conditioned キャプションは、人間の判断と一致する信頼できる自動評価を実現できるか?
- RQ3VisIT-Bench における最先端モデルの、単一画像タスクと複数画像タスクの相対的な性能はどうか?
- RQ4モデル出力のランキングにおいて、GPT-4ベースの自動評価は人間の判断とどのように比較されるか?
主な発見
| モデル | Elo | matches | Win-rate vs. reference (w/ # ratings) |
|---|---|---|---|
| LLaVA (13B) | 1085 | 1462 | 26.23% (n=244) |
| LlamaAdapter-v2 (7B) | 1061 | 1507 | 27.41% (n=259) |
| mPLUG-Owl (7B) | 995 | 1345 | 14.95% (n=214) |
| InstructBLIP (13B) | 957 | 1315 | 12.37% (n=194) |
| MiniGPT-4 (7B) | 893 | 1513 | 14.72% (n=299) |
| PandaGPT (13B) | 786 | 1441 | 10.48% (n=229) |
| mPLUG-Owl (Multiple Images) | 997 | 190 | 15.38% (n=78) |
| Otter v1 | 917 | 147 | 3.17% (n=63) |
| OpenFlamingo v1 | 893 | 171 | 4.35% (n=69) |
- VisIT-Bench は、モデルと人間の参照の間に意味のあるギャップを明らかにし、最高モデルが参照に勝つのはわずか27.4%の時間(Single Image の結果)です。
- 5K件のペアワイズ比較で収集された人間判断は、 Elo ランキングを生み出し、モデルを区別します(例:LLaMA-Adapter-v2 が一部の比較で参照に対して優位)。
- Instruction-conditioned キャプションは極めて重要で、詳細なキャプションを使用すると(BLIP-2キャプションと比較して)正しい instruction-following が著しく向上する(91% 対 31%)。
- 自動GPT-4ベースの評価(GPT4-no-ref) は人間の判断と最も強く相関し、過半数の投票の再現精度が高い(全アノテータが同意した場合は例: 93%)です。
- VisIT-Bench は新しいモデルとインスタンス評価で更新される動的なリーダーボードを提供し、マルチモーダル指示追従の進捗を追跡します。
- データセットとリーダーボードの公開リリースは、コミュニティ主導のベンチマークと手法開発を可能にします。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。