Skip to main content
QUICK REVIEW

[論文レビュー] Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

Amita Kamath, Jack Hessel|arXiv (Cornell University)|Feb 26, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

要約: この論文は、 vision-language データにおける報告バイアスが四つの核心的推論スキル(空間的、時間的、否定、カウント)の抑制につながると主張する。モデル/データ規模の拡大と多言語化だけではこれを解消できず、しかしターゲットを絞ったアノテータの指示と意図的なデータ収集が VLM の推論を改善する可能性がある。

ABSTRACT

The lack of reasoning capabilities in Vision-Language Models (VLMs) has remained at the forefront of research discourse. We posit that this behavior stems from a reporting bias in their training data. That is, how people communicate about visual content by default omits tacit information needed to supervise some types of reasoning; e.g., "at the game today!" is a more likely caption than "a photo of 37 people standing behind a field". We investigate the data underlying the popular VLMs OpenCLIP, LLaVA-1.5 and Molmo through the lens of theories from pragmatics, and find that reporting bias results in insufficient representation of four reasoning skills (spatial, temporal, negation, and counting), despite the corpora being of web-scale, and/or synthetically generated. With a set of curated benchmarks, we demonstrate that: (i) VLMs perform poorly on the aforementioned types of reasoning suppressed in the training data by reporting bias; (ii) contrary to popular belief, scaling data size, model size, and to multiple languages does not result in emergence of these skills by default; but, promisingly, (iii) incorporating annotations specifically collected to obtain tacit information is effective. Our findings highlight the need for more intentional training data curation methods, rather than counting on scale for emergence of reasoning capabilities.

研究の動機と目的

  • vision-language データ中の報告バイアスが主要な推論スキルを抑制するかを調査する。
  • データ規模やモデル規模、または多言語データの拡大が VLM における推論の過小表現を緩和するかを評価する。
  • アノテータ指示が報告バイアスを緩和し、ファインチューニングを通じて推論を改善できるかを評価する。

提案手法

  • 著者らはオープンソースの画像-テキストコーパス(LAION、LLaVA-1.5、PixMo)と一般的な VLM の学習データを分析し、キーワード出現と人間が検証した推定値を用いて四つの推論タイプの過小表現を定量化する。
  • 四つの推論ベンチマーク(空間、カウント、否定、時間)を作成し、複数の対比学習モデル(OpenCLIP 系列)と生成型モデル(LLaVA-1.5、Molmo、他)を評価する。
  • データサイズを変えるスケーリング則実験(LAION-80M/400M/2B)とモデルサイズを変える実験を行い、英語へのキャプション翻訳による多言語多様性を評価する。
  • アノテータ指示研究と統制キャプション作成実験を行い、キャプション中の推論概念の出現頻度が指示によりどう変化するかを測定する。
  • 推論に焦点を当てたデータセットでファインチューニングを試み、推論データの増加が性能向上に結びつくかを評価する。
Figure 1: Examples from LAION-2B of data points that contain reasoning-related keywords that do and do not operationalize the reasoning capability itself.
Figure 1: Examples from LAION-2B of data points that contain reasoning-related keywords that do and do not operationalize the reasoning capability itself.

実験結果

リサーチクエスチョン

  • RQ1ウェブ規模の vision-language データにおける報告バイアスは、空間・時間・カウント・否定推論を過小表現しているか。
  • RQ2データサイズ、モデルサイズ、または多言語データの拡大だけで VLM に新たな推論能力が現れるか。
  • RQ3アノテータ指示は報告バイアスを緩和し VLM の推論を改善できるか、そして大規模再訓練なしで十分か。
  • RQ4提案された推論ベンチマーク上のパフォーマンスは、ターゲットを絞ったデータ収集によってどう変わるか。

主な発見

ModelSpatialNegationCountingTemporal
CLIP ViT-B/3230.611.543.458.5
+ ML Div.27.415.523.351.5
CLIP ViT-B/1627.712.748.155.0
CLIP ViT-L/1428.412.364.152.0
CLIP ViT-g/1428.412.759.052.0
CLIP ViT-H/1426.013.260.059.0
LLAVA-1.5-7B37.633.447.372.5
LLAVA-1.5-13B61.728.448.974.5
Molmo 7B-O75.538.477.578.0
Molmo 7B-D87.641.383.880.5
LLAVA-1.6-m7B60.040.652.970.0
Qwen-VL 7B-Chat47.124.284.667.5
Qwen2-VL 7B-Inst.98.356.185.884.0
GPT4o91.522.290.995.0
GPT o197.664.788.297.0
Gemini 1.5-Flash98.546.484.681.5
Gemini 1.5-Pro92.049.087.885.0
Claude-3 Haiku65.528.983.470.0
Claude-3.5 Sonnet95.442.092.383.5
Random Chance25.025.011.150.0
Human Estimate100100100100
  • 推論関連の概念はオープンソースの画像-テキストコーパスでは極めて希少である(例:LAION における空間推論は約0.1%程度); 大規模データでもこれらのスキルの表現は最小限である。
  • データ規模とモデル規模の拡大が空間・時間・否定・カウント推論の顕著な出現を確実に生み出すとは限らず、多言語拡張だけでは有効でない場合もあり、人間の性能にはまだ大きく及ばないモデルもある。
  • アノテータ指示はキャプション中の対象推論信号の出現を劇的に増やし、推論豊富なデータでのファインチューニングは改善をもたらす。データ品質が極めて重要であることを示す。
  • オープンソースの生成型モデルは対比的学習モデルより平均的に優れる場合があるが、人間の性能にはまだ far from 及ばず、特に否定・時間推論で顕著。
  • これらの結果は、規模拡大だけに頼るのではなく、意図的なデータ収集とアノテーション戦略が VLM 推論を向上させるべきだ、という結論を支持する。
Figure 2: Examples from our four benchmarks for contrastive and generative evaluations. The generative evaluation is in MCQ format but for counting, for which a free form output with a given range yielded higher scores.
Figure 2: Examples from our four benchmarks for contrastive and generative evaluations. The generative evaluation is in MCQ format but for counting, for which a free form output with a given range yielded higher scores.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。