[논문 리뷰] SugarCrepe: Fixing Hackable Benchmarks for Vision-Language Compositionality
SugarCrepe은 대형 언어 모델(LLM)로 생성된 하드 네거티브와 적대적 정제를 사용하는 편향 고정 벤치마크를 도입하여, 오래된 벤치마크에서 이전 방법의 과대 평가된 이득을 드러냅니다.
In the last year alone, a surge of new benchmarks to measure compositional understanding of vision-language models have permeated the machine learning ecosystem. Given an image, these benchmarks probe a model's ability to identify its associated caption amongst a set of compositional distractors. Surprisingly, we find significant biases in all these benchmarks rendering them hackable. This hackability is so dire that blind models with no access to the image outperform state-of-the-art vision-language models. To remedy this rampant vulnerability, we introduce SugarCrepe, a new benchmark for vision-language compositionality evaluation. We employ large language models, instead of rule-based templates used in previous benchmarks, to generate fluent and sensical hard negatives, and utilize an adversarial refinement mechanism to maximally reduce biases. We re-evaluate state-of-the-art models and recently proposed compositionality inducing strategies, and find that their improvements were hugely overestimated, suggesting that more innovation is needed in this important direction. We release SugarCrepe and the code for evaluation at: https://github.com/RAIVNLab/sugar-crepe.
연구 동기 및 목표
- 기존의 시각-언어 조합성 벤치마크에서 비주얼이 아닌 모델이 해킹할 수 있도록 하는 편향을 식별한다.
- 유창하고 그럴듯한 하드 네거티브를 생성하는 새로운 벤치마크 생성을 위한 워크플로우를 개발한다.
- 아티팩트 기반의 성능 향상을 가능하게 하는 분포 차이와 인공물을 완화한다.
- 최근 조합 방법 및 사전 학습된 CLIP 모델에 대한 공정한 재평가를 제공한다.
제안 방법
- ChatGPT를 사용하여 양성 자막으로부터 유창하고 그럴듯한 하드 네거티브를 생성한다.
- 거짓 음수를 걸러내기 위해 하드 네거티브를 수동으로 검증한다.
- 점수 간격 분포를 균형 있게 하고 악용 가능한 편향을 제거하기 위해 적대적 정제 절차를 적용한다.
- 객체/속성/관계 전반에 걸친 일곱 가지 세밀한 하드 네거티브 유형을 다루어 구성 이해를 테스트한다(Replace, Swap, Add across Object/Attribute/Relation).
- SugarCrepe에서 기존의 조합 방법과 광범위한 사전 학습된 CLIP 모델을 평가하고 이전 벤치마크와 비교한다.
실험 결과
연구 질문
- RQ1기존의 시각-언어 조합성 벤치마크에 이미지를 사용하지 않고도 비주얼이 아닌 모델이 우수하게 작동하도록 하는 편향이 존재하는가?
- RQ2대형 언어 모델(LLM)과 적대적 정제로 생성된 벤치마크가 구성 이해를 보다 신뢰성 있게 측정할 수 있는가?
- RQ3최근의 구성 방법과 대형 사전학습 CLIP 모델이 SugarCrepe에서 기존 벤치마크와 비교하여 어떤 성능을 보이는가?
주요 결과
- 기존 벤치마크는 매우 해킹 가능하며 텍스트만 사용하는 모델이 비논리적이고 유창하지 않은 하드 네거티브를 악용해 시각-언어 모델보다 우수한 성능을 낼 수 있다.
- SugarCrepe은 LLM으로 생성된 하드 네거티브와 점수 간격 분포를 대칭화하는 적대적 정제를 통해 이러한 편향을 줄인다.
- NegCLIP 유형의 하드 네거티브 증강은 오래된 벤치마크에서 큰 이득을 보였으나 SugarCrepe에서는 훨씬 작은 이득을 보여 인공물에 대한 과적합을 시사한다.
- SugarCrepe에서 최상위 사전학습 CLIP 모델도 인간 성능과의 차이가 여전히 있으며 특히 Swap 및 속성/관계 관련 네가티브에서 차이가 크다.
- SugarCrepe는 모델의 성능이 ImageNet 제로샷 정확도와 상관관계가 있음을 드러내며, 하드 네거티브 범주에 따라 그 강도가 다르게 나타난다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.