[論文レビュー] SugarCrepe: Fixing Hackable Benchmarks for Vision-Language Compositionality
SugarCrepe は、視覚と言語の構成性のバイアスを固定したベンチマークを導入し、large-language-model 生成の難正負例と敵対的な洗練を用い、旧いベンチマークでの従来手法の過大評価された利得を明らかにする。
In the last year alone, a surge of new benchmarks to measure compositional understanding of vision-language models have permeated the machine learning ecosystem. Given an image, these benchmarks probe a model's ability to identify its associated caption amongst a set of compositional distractors. Surprisingly, we find significant biases in all these benchmarks rendering them hackable. This hackability is so dire that blind models with no access to the image outperform state-of-the-art vision-language models. To remedy this rampant vulnerability, we introduce SugarCrepe, a new benchmark for vision-language compositionality evaluation. We employ large language models, instead of rule-based templates used in previous benchmarks, to generate fluent and sensical hard negatives, and utilize an adversarial refinement mechanism to maximally reduce biases. We re-evaluate state-of-the-art models and recently proposed compositionality inducing strategies, and find that their improvements were hugely overestimated, suggesting that more innovation is needed in this important direction. We release SugarCrepe and the code for evaluation at: https://github.com/RAIVNLab/sugar-crepe.
研究の動機と目的
- 既存の視覚と言語の構成性ベンチマークに含まれる、非視覚モデルが画像を使用せずに成功するようなバイアスを特定する。
- 流暢でもっともらしい難正負例を生み出す新しいベンチマーク生成ワークフローを開発する。
- アーティファクトベースの性能向上を可能にする分布ギャップとアーティファクトを緩和する。
- 最近の構成性手法と事前学習済み CLIP モデルの公正な再評価を行い、従来のベンチマークと比較する。
提案手法
- 正のキャプションから流暢でもっともらしい難正負例を生成するために ChatGPT を使用する。
- 偽陰性を除外するために難正負例を手動で検証する。
- スコアギャップの分布を対称化し、利用可能なバイアスを除去するための敵対的改良手順を適用する。
- 構成理解をテストするための7種類の細かな難正負タイプをカバーする(Object/Attribute/Relation 全体での Replace、Swap、Add)。
- SugarCrepe を用いた既存の構成性手法と広範な事前学習済み CLIP モデルを評価し、従来のベンチマークと比較する。
実験結果
リサーチクエスチョン
- RQ1既存の視覚と言語の構成性ベンチマークには、非視覚モデルが画像を使用せずに優れることを許すバイアスが含まれているのか。
- RQ2大規模言語モデルと敵対的改良で生成されたベンチマークは、構成理解のより忠実な測定を提供できるのか。
- RQ3SugarCrepe 上での最近の構成性手法と大規模事前学習済み CLIP モデルのパフォーマンスは、従来のベンチマークと比較してどうか。
主な発見
- 既存のベンチマークは高度にハック可能であり、テキストのみのモデルが、意味が通らず流暢でない難正負例を悪用して視覚と言語のモデルに勝つことができる。
- SugarCrepe はLLM生成の難正負例と敵対的改良により、スコアギャップ分布を対称化してこれらのバイアスを低減する。
- NegCLIP 型の難正負例の拡張は古いベンチマークで大きな利得を示すが、SugarCrepe では利得がはるかに小さく、アーティファクトへの過剰適合を示唆する。
- SugarCrepe では、Swap および属性/関係関連の難正負に特において、人間の性能との差が依然として存在することが分かる。
- SugarCrepe は、モデルの性能が ImageNet のゼロショット精度と相関することを明らかにし、難正負カテゴリー間で強さが異なる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。