[論文レビュー] IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models
IllusionVQAは、Vision Language Modelsを評価する2つのタスク(ComprehensionとSoft Localization)を備えた挑戦的な光学的イリュージョンVQAデータセットを導入し、GPT4Vがこれまでで最良の成績を出す一方で人間レベルからは程遠いことを示し、ICL/CoTと局所化能力の限界を明らかにする。
The advent of Vision Language Models (VLM) has allowed researchers to investigate the visual understanding of a neural network using natural language. Beyond object classification and detection, VLMs are capable of visual comprehension and common-sense reasoning. This naturally led to the question: How do VLMs respond when the image itself is inherently unreasonable? To this end, we present IllusionVQA: a diverse dataset of challenging optical illusions and hard-to-interpret scenes to test the capability of VLMs in two distinct multiple-choice VQA tasks - comprehension and soft localization. GPT4V, the best performing VLM, achieves 62.99% accuracy (4-shot) on the comprehension task and 49.7% on the localization task (4-shot and Chain-of-Thought). Human evaluation reveals that humans achieve 91.03% and 100% accuracy in comprehension and localization. We discover that In-Context Learning (ICL) and Chain-of-Thought reasoning substantially degrade the performance of Gemini-Pro in the localization task. Tangentially, we discover a potential weakness in the ICL capabilities of VLMs: they fail to locate optical illusions even when the correct answer is in the context window as a few-shot example.
研究の動機と目的
- 光学的イリュージョンに対するVLMsの評価を動機づけ、知覚・推論・局所化を通常の画像を超えて探る。
- 理解とソフト局所化タスクを挑戦させる、多様で実世界のイリュージョンデータセットを12カテゴリに跨って作成する。
- 機械と人間の間のギャップを定量化するため、ヒト評価を含む厳密なベンチマークを提供する。
提案手法
- GPT-4VとGemini-Vision APIでフィルタリングした後、インターネットから374点の高品質な光学イリュージョン画像をキュレーションする。
- 各画像につき3–6オプションの439問の多択問題(IllusionVQA-Comprehension)を生成し、正解を1つ、引っ掛け選択肢を妥当なものにする。
- 不可能物体の左右局所化をテストするため、2枚の画像を手続き的に貼り合わせてIllusionVQA-Soft-Localizationを作成する(1000サンプル)。
- 適用可能な場合、0-shot, 4-shot, 4-shot+CoT設定の下でGPT-4V、Gemini-Pro、InstructBLIP、LLaVA-1.5、CogVLMなどの幅広いVLMを評価する。
- グラウンドトゥルース比較と時間測定のため、専門家3名のヒト評価者を含める。
実験結果
リサーチクエスチョン
- RQ1最先端のVision-Language Modelsは、多様なカテゴリの光学的イリュージョンについて理解し、正しく質問に答えることができるか?
- RQ2大規模VLMは小規模なオープンソースモデルよりイリュージョンの理解に長けており、人間の性能にどれだけ近いか?
- RQ3VLMはイリュージョンシーン内の幾何学的に不可能な物体を正確に局所化または識別できるか、 prompting戦略はこれにどう影響するか?
- RQ4インコントキスト学習とチェーン・オブ・思考推論は、イリュージョン関連タスクの性能を改善するか低下させるか?
主な発見
- GPT-4VはIllusionVQA-Comprehensionで62.99%の正確度を達成する(4-shot)、一方人間は同じタスクで91.03%に達する。
- GPT-4VはIllusionVQA-Soft-Localizationで49.7%の正確度を達成(4-shot+CoT)、一方人間は評価された局所化サンプルで100%に達する。
- 12カテゴリにおいて、VLMは理解で人間に及ばず、大型モデルは通常小型のオープンソースモデルより優れているが、それでも人間レベルには程遠い。
- ICLとCoTは局所化タスクで一部のモデルの性能を低下させる可能性があり、これらの戦略がイリュージョン局所化に普遍的に有益とは限らないことを示している。
- 大型VLMは通常の物体の局所化で高い性能を示すが、光学的イリュージョンの局所化には失敗し、空間推論ギャップを浮き彫りにしている。
- 人間は評価されたサンプルでIllusionVQA-Soft-Localizationでほぼ完璧な局所化(100%)を達成しており、現行のVLM能力には大きなギャップがあることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。