[논문 리뷰] Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning
이 논문은 비전-언어 데이터의 보고 편향이 공간적, 시간적, 부정, 계산의 네 가지 핵심 추론 능력을 억제한다고 주장합니다. 모델/데이터 규모의 확장과 다국어화만으로는 이를 해결할 수 없지만, 표적 주석자 지시와 의도된 데이터 수집이 VLM 추론을 개선할 수 있습니다.
The lack of reasoning capabilities in Vision-Language Models (VLMs) has remained at the forefront of research discourse. We posit that this behavior stems from a reporting bias in their training data. That is, how people communicate about visual content by default omits tacit information needed to supervise some types of reasoning; e.g., "at the game today!" is a more likely caption than "a photo of 37 people standing behind a field". We investigate the data underlying the popular VLMs OpenCLIP, LLaVA-1.5 and Molmo through the lens of theories from pragmatics, and find that reporting bias results in insufficient representation of four reasoning skills (spatial, temporal, negation, and counting), despite the corpora being of web-scale, and/or synthetically generated. With a set of curated benchmarks, we demonstrate that: (i) VLMs perform poorly on the aforementioned types of reasoning suppressed in the training data by reporting bias; (ii) contrary to popular belief, scaling data size, model size, and to multiple languages does not result in emergence of these skills by default; but, promisingly, (iii) incorporating annotations specifically collected to obtain tacit information is effective. Our findings highlight the need for more intentional training data curation methods, rather than counting on scale for emergence of reasoning capabilities.
연구 동기 및 목표
- 비전-언어 데이터의 보고 편향이 주요 추론 능력을 억제하는지 조사한다.
- 데이터 규모 또는 모델 규모의 확장이나 다국어 데이터가 VLM의 추론 과소표현을 완화하는지 평가한다.
- 주석자 지시가 보고 편향을 완화하고 파인튜닝을 통해 추론을 개선하는지 평가한다.
제안 방법
- 저자는 네 가지 오픈 소스 이미지-텍스트 코퍼스(LAION, LLaVA-1.5, PixMo)와 대중적인 VLM의 학습 데이터셋을 분석하여 키워드 발생과 인간 검증 추정치를 사용해 네 가지 추론 유형의 과소표현을 정량화합니다.
- 네 가지 추론 벤치마크(공간, 계산, 부정, 시간)를 선별하고, 여러 대조적(OpenCLIP 변형) 및 생성적(LLaVA-1.5, Molmo, 기타) VLM들을 이 벤치마크에서 평가합니다.
- 데이터 크기(LAION-80M/400M/2B)와 모델 크기를 달리하는 스케일링 법칙 실험을 수행하고, 자막을 영어로 번역하여 다국어 다양성을 평가합니다.
- 주석자 지시 연구와 캡션 가이드가 추론 개념의 캡션 내 prevalence에 미치는 영향을 측정하는 통제된 캡션 실험을 수행합니다.
- 추가적인 추론 데이터가 증가하더라도 성능 향상으로 이어지는지 가늠하기 위해 계산 중심 데이터셋으로 파인튜닝을 시도합니다.

실험 결과
연구 질문
- RQ1웹 스케일 비전-언어 데이터의 보고 편향이 공간적, 시간적, 계산 및 부정 추론을 과소표현하는가?
- RQ2데이터 규모, 모델 규모 또는 다국어 데이터의 증가가 VLM에서 신생 추론 능력을 이끌어내는가?
- RQ3주석자 지시가 보고 편향을 완화하고 VLM 추론을 향상시킬 수 있는가, 대규모 재학습 없이도 가능한가?
- RQ4제안된 추론 벤치마크에서 표적 데이터 수집이 성능에 어떤 영향을 미치는가?
주요 결과
| 모델 | 공간 | 부정 | 계산 | 시간적 |
|---|---|---|---|---|
| CLIP ViT-B/32 | 30.6 | 11.5 | 43.4 | 58.5 |
| + ML Div. | 27.4 | 15.5 | 23.3 | 51.5 |
| CLIP ViT-B/16 | 27.7 | 12.7 | 48.1 | 55.0 |
| CLIP ViT-L/14 | 28.4 | 12.3 | 64.1 | 52.0 |
| CLIP ViT-g/14 | 28.4 | 12.7 | 59.0 | 52.0 |
| CLIP ViT-H/14 | 26.0 | 13.2 | 60.0 | 59.0 |
| LLAVA-1.5-7B | 37.6 | 33.4 | 47.3 | 72.5 |
| LLAVA-1.5-13B | 61.7 | 28.4 | 48.9 | 74.5 |
| Molmo 7B-O | 75.5 | 38.4 | 77.5 | 78.0 |
| Molmo 7B-D | 87.6 | 41.3 | 83.8 | 80.5 |
| LLAVA-1.6-m7B | 60.0 | 40.6 | 52.9 | 70.0 |
| Qwen-VL 7B-Chat | 47.1 | 24.2 | 84.6 | 67.5 |
| Qwen2-VL 7B-Inst. | 98.3 | 56.1 | 85.8 | 84.0 |
| GPT4o | 91.5 | 22.2 | 90.9 | 95.0 |
| GPT o1 | 97.6 | 64.7 | 88.2 | 97.0 |
| Gemini 1.5-Flash | 98.5 | 46.4 | 84.6 | 81.5 |
| Gemini 1.5-Pro | 92.0 | 49.0 | 87.8 | 85.0 |
| Claude-3 Haiku | 65.5 | 28.9 | 83.4 | 70.0 |
| Claude-3.5 Sonnet | 95.4 | 42.0 | 92.3 | 83.5 |
| Random Chance | 25.0 | 25.0 | 11.1 | 50.0 |
| Human Estimate | 100 | 100 | 100 | 100 |
- 오픈 소스 이미지-텍스트 코퍼스에서 추론 관련 개념은 매우 드물다(예: LAION의 공간 추론 약 0.1%); 대규모 데이터에서도 이러한 기술의 표현은 최소화됩니다.
- 데이터 및 모델 규모의 확장이 반드시 공간, 시간, 부정 또는 계산 추론의 신생을 보장하지 않으며, 다국어 확장만으로는 도움이 되지 않을 수 있습니다; 일부 모델은 인간 성능보다 여전히 뒤처집니다.
- 주석자 지시가 캡션에서 목표 추론 신호의 존재를 크게 증가시키며, 추론이 풍부한 데이터로의 파인튜닝이 개선을 가져와 데이터 품질이 중요함을 시사합니다.
- 오픈 소스 생성 모델은 대조적 모델보다 평균적으로 성능이 우수하지만, 특히 부정 및 시간적 추론에서 인간 성능과 여전히 큰 차이가 있습니다.
- 이러한 결과는 VLM 추론 향상을 위해 스케일링만큼이나 의도적인 데이터 수집 및 주석 전략의 필요성을 시사합니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.