[論文レビュー] When and why vision-language models behave like bags-of-words, and what to do about it?
この論文は、視覚言語モデルの構成的理解を診断するための Attribution, Relation, and Order (ARO) ベンチマークを導入し、現在のモデルは関係、属性、順序で失敗することを示し、構成を意識したハードネガティブがパフォーマンスを大幅に向上させることを示す。
Despite the success of large vision and language models (VLMs) in many downstream applications, it is unclear how well they encode compositional information. Here, we create the Attribution, Relation, and Order (ARO) benchmark to systematically evaluate the ability of VLMs to understand different types of relationships, attributes, and order. ARO consists of Visual Genome Attribution, to test the understanding of objects' properties; Visual Genome Relation, to test for relational understanding; and COCO & Flickr30k-Order, to test for order sensitivity. ARO is orders of magnitude larger than previous benchmarks of compositionality, with more than 50,000 test cases. We show where state-of-the-art VLMs have poor relational understanding, can blunder when linking objects to their attributes, and demonstrate a severe lack of order sensitivity. VLMs are predominantly trained and evaluated on large datasets with rich compositional structure in the images and captions. Yet, training on these datasets has not been enough to address the lack of compositional understanding, and evaluating on these datasets has failed to surface this deficiency. To understand why these limitations emerge and are not represented in the standard tests, we zoom into the evaluation and training procedures. We demonstrate that it is possible to perform well on retrieval over existing datasets without using the composition and order information. Given that contrastive pretraining optimizes for retrieval on datasets with similar shortcuts, we hypothesize that this can explain why the models do not need to learn to represent compositional information. This finding suggests a natural solution: composition-aware hard negative mining. We show that a simple-to-implement modification of contrastive learning significantly improves the performance on tasks requiring understanding of order and compositionality.
研究の動機と目的
- 視覚言語モデルがキャプションと画像において物体属性・関係・語順をどれだけうまくエンコードしているかを評価する。
- 属性・関係・順序理解を測る大規模ベンチマークを作成する。
- 検索(リトリーバル)重視の学習がなぜ構成能力を見落とす可能性があるのかを分析する。
提案手法
- Ground-truth と swapped ケースでキャプションを入れ替えた視覚ゲノム属性化(Visual Genome Attribution)と視覚ゲノム関係(Visual Genome Relation)タスクを構築して、物体属性と関係をテストする。
- 系統的な摂動を用いてキャプションの語順に対するモデルの感度を検証するため、COCO Order と Flickr30k Order タスクを作成する。
- AROベンチマーク上で最先端VLM(CLIP、BLIP、Flava、X-VLM)の4機を評価する。
- リトリーバルと対照的事前学習を構成的理解の不十分な評価とみなす批判。
- 微調整時に負キャプションを生成し最近傍画像をサンプリングすることで、構成を意識したハードネガティブ・マイニングを提案する。
- NegCLIPが語順・関係理解を大幅に改善しつつ、下流タスクのパフォーマンス低下を最小限に抑えることを示す。
実験結果
リサーチクエスチョン
- RQ1VLMは画像における関係性・属性の組成を信頼性高く理解しているか?
- RQ2 VLMは視覚的に根拠のある場面を説明するキャプションの語順に敏感か?
- RQ3取得データセットでの対照的学習がモデルに構成と順序の手掛かりを無視させる原因となるか?
- RQ4構成を意識したハードネガティブ・マイニングは他タスクを損なうことなく構成理解を改善できるか?
主な発見
- VLMは関係理解と属性の入れ替えに対して大きく失敗し、キャプションの語順にはほとんど敏感でないことが多い。
- Visual Genome Relation と Attribution タスクではモデルの精度はほぼチャンスレベル; 例えば空間関係は varied だが一般に低精度、動詞は大部分が難しく、属性はモデルごとにばらつきがある。
- Order sensitivity tests (COCO Order, Flickr30k Order) は、 tested models のほとんどで正しい順序を好む傾向がほとんどないことを示す。
- 順序・構成指標が攪乱されても取得性能は高いままであり、取得ベースの評価が構成的欠陥を隠していることを示唆する。
- 構成を意識したハードネガティブ(NegCLIP)の導入により大幅な改善を達成:VG-Relation 63% から 81%、VG-Attribution 62% から 71%、COCO Order 46% から 86%、Flickr30k Order 59% から 91%、下流タスクの低下はごくわずか。
- NegCLIPは CIFAR-10/100、ImageNet、Flickr30k、COCO などのいくつかの構成ベンチマークで競争力を持つか、あるいは上回りつつ、他タスクの性能を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。